Offre post-doc Greyc (fouille de données et contraintes)

Le laboratoire GREYC CNRS UMR 6072 de l’université de Caen Basse-Normandie propose un post-doc financé par la Région Basse-Normandie sur un projet de recherche.

Sujet : développement de méthodes de fouille de données pour l’extraction de connaissances à partir de textes
=====

Contexte

L’objectif général de ce travail est de développer de nouvelles méthodes de fouille de données adaptées aux spécificités du texte en tirant profit des complémentarités des techniques de traitement automatique des langues avec celles des techniques de fouille.

L’idée consiste à tirer parti de la capacité des méthodes de fouille à faire émerger des régularités et des motifs sur des données volumineuses, - les motifs découverts étant ensuite utilisables en TAL en tant que patrons linguistiques ou règles d’extraction -, ainsi qu’à développer des méthodes de fouille adaptées aux spécificités du texte. L’originalité de ce sujet est ainsi de croiser les techniques de TAL (notamment pour l’extraction d’information) et de fouille de données.

Il existe un savoir-faire au GREYC sur les méthodes de fouille de données et du traitement automatique des langues (TAL), notamment en extraction d’information, et depuis peu d’années, nous développons une thématique émergente autour de l’hybridation de ces deux domaines (Charnois 09 ; Plantevit 09 ; Cellier 10a ) dans le cadre du projet Bingo2 (2008-2011, http://bingo2.greyc.fr) financé par l’ANR. Le post- doc proposé se situe dans le prolongement de ce projet, et s’appuie sur le projet ANR Hybride acceptée à l’appel à projets blanc 2011 de l’ANR.
Hybride regroupe le GREYC (équipe CoDaG), le LORIA (équipe Orpailleur), MoDyCo (Paris X) et l’INSERM (Orphanet, sur les maladies rares). Il a pour ambition de développer de nouvelles méthodes et outils pour guider la découverte de connaissances à partir de textes.

Travail proposé

Pour adapter les algorithmes de fouille de données aux données textuelles, le post-doctorant pourra, selon son profil, travailler sur l’un ou l’autre des deux volets suivants :

1 ** Conception et mise au point d’une méthode pour la fouille de données sous contraintes textuelles.**

Cet aspect pourra être initié par la réalisation d’un extracteur de fouille de données séquentielles prenant en compte des itemsets et intégrant des contraintes syntaxiques classiques (par ex. gap, longueur, etc) mais aussi des contraintes “textuelles” : par ex. l’appartenance ou non d’un type particulier d’item dans les motifs extraits, ce type pouvant être spécifié par une information linguistique (exemple : présence de la catégorie “verbe”, ou encore “verbe d’interaction”…) ; la formalisation et l’intégration des contraintes textuelles sera à développer. L’objectif applicatif est d’associer des informations linguistiques variées (morphologiques, syntaxiques, sémantiques…) à des unités textuelles de différents niveaux (mot, proposition, phrase…) : les unités textuelles sont par nature ordonnées donc séquentielles, alors que les informations linguistiques sont de type ensembliste (itemsets). L’expérimentation consistera en un cas d’étude sur une collection de textes issue d’Orphanet (base de données internationale sur les maladies rares accessible via le web :http://www.orpha.net/). Pour aller au- delà de la fouille de séquences, un prolongement de ce volet pourra porter sur la fouille de graphes.

2 ** Etude de faisabilité de l’extension du cadre de la programmation par contraintes à la fouille de séquences sous contraintes. **

Des travaux sur les liens PPC et fouille ont déjà été réalisés au GREYC (Khiari 10) dans le cas des itemsets (qui est un cadre ensembliste). Il s’agit maintenant d’étendre ces travaux pour prendre en compte la séquentialité non seulement de données textuelles mais aussi plus largement de toutes données ordonnées (fouille de séquences). Une idée est l’exploitation de contraintes PPC comme la contrainte REGULAR proposée par G. Pesant (CP’2004) pour l’extraction de séquences fréquentes. Une extension de ce travail pourra porter sur la fouille séquentielle sous contraintes souples.

  • Profil

Nous recherchons un informaticien ayant des connaissances dans au moins l’un des domaines suivants : fouille de données, fouille de textes, programmation par contraintes (PPC), apprentissage automatique.

  • Lieu, durée et rémunération

Contrat de 12 mois (possibilité de prolongation), à pourvoir à partir de septembre 2011
Rémunération : aux alentours de 1950 euros net par mois
Le poste est à pourvoir au GREYC.

  • Comment candidater

Les candidatures sont à envoyer dès que possible et seront étudiées jusqu’à ce que le poste soit pourvu.

Envoyer un CV et une lettre de motivation, ainsi que deux noms de personnes susceptibles de recommander le candidat, par courrier électronique à
Thierry.Charnois@unicaen.fr
Bruno.Cremilleux@unicaen.fr

Thierry Charnois +33 2 31 56 73 77
Bruno Crémilleux +33 2 31 56 74 35
GREYC - CNRS UMR 6072, Université de Caen, Campus Côte de Nacre F-14032 Caen
Cedex - France
**************************

Références

Thierry Charnois, Marc Plantevit, Christophe Rigotti and Bruno Crémilleux. Fouille de données séquentielles pour l’extraction d’information dans les textes. Revue internationale TAL, 50(3) : 59–87, 2009.

Peggy Cellier, Thierry Charnois, Marc Plantevit and Bruno Crémilleux, Recursive Sequence Mining to Discover Named Entity Relations, In Proceedings of the the 9th International Symposium on Intelligent Data Analysis, (IDA 2010), pages 537-548 LNCS, Tucson, USA, May 2010.

Mehdi Khiari, Patrice Boizumault, Bruno Crémilleux. Constraint Programming for Mining n-ary Patterns, 6th International Conference on Principles and Practice of Constraint Programming (CP’10), Lecture Notes in Computer Science, N. 6308, Springer, pp. 552-567, St Andrews, Scotland, September 2010.

Gilles Pesant. A Regular Language Membership Constraint for Finite Sequences of Variables. CP 2004: 482-495

Marc Plantevit, Thierry Charnois, Jiří Kléma, Christophe Rigotti and Bruno Crémilleux. Combining Sequence and Itemset Mining to Discover Named Entities in Biomedical Texts : A New Type of Pattern. International Journal of Data Mining, Modelling and Management, 1(2) : 119–148, 2009.