École Centrale de Nantes Université de Nantes École des Mines de Nantes ÉCOLE D
École Centrale de Nantes Université de Nantes École des Mines de Nantes ÉCOLE DOCTORALE STIM « SCIENCES ET TECHNOLOGIE DE L’INFORMATION ET DES MATERIAUX » Année 2005 Extraction d’Information et modélisation de connaissances à partir de Notes de Communication Orale THÈSE pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ DE NANTES Discipline : INFORMATIQUE présentée et soutenue publiquement par Fabrice EVEN le 5 octobre 2005 à l’UFR Sciences et Techniques, Université de Nantes devant le jury ci-dessous Président : Alexandre DIKOVSKY, Professeur des Universités LINA, Université de Nantes Rapporteurs : Pierre ZWEIGENBAUM, Professeur des Universités INSERM, Hôpitaux de Paris François ROUSSELOT, Maître de conférences LIIA, INSA Strasbourg Examinateurs : Noureddine MOUADDIB, Professeur des Universités LINA, Université de Nantes Chantal ENGUEHARD, Maître de conférences LINA, Université de Nantes Pascal MUCKENHIRN Crédit Mutuel LACO Directeur de thèse : Professeur Noureddine MOUADDIB Co-encadrante : Maître de conférences Chantal ENGUEHARD Laboratoire : Laboratoire d’Informatique de Nantes Atlantique (LINA) CNRS-FRE 2729 N° ED 366-210 EXTRACTION D’INFORMATION ET MODELISATION DE CONNAISSANCES A PARTIR DE NOTES DE COMMUNICATION ORALE Information Extraction and knowledge modelling from oral communication notes Fabrice EVEN favet neptunus eunti Université de Nantes Fabrice EVEN Extraction d’Information et modélisation de connaissances à partir de Notes de Communication Orale xviii+230. La rivière coule sans jamais s’arrêter, pourtant les millions de gouttes d’eau qui la composent ne sont jamais les mêmes. Toute chose passe. – Takeo KUMAGAMI. Résumé Malgré l’essor de l’Extraction d’Information et le développement de nombreuses applications dédiées lors de ces vingt dernières années, cette tâche rencontre des problèmes lorsqu’elle est réalisée sur des textes atypiques comme des Notes de Communication Orale. Les Notes de Communication Orale sont des textes issus de prises de notes réalisées lors d’une communication orale (entretien, réunion, exposé, etc.) et dont le but est de synthétiser le contenu informatif de la communication. Leurs contraintes de rédaction (rapidité et limitation de la quantité d’écrits) sont à l’origine de particularités linguistiques auxquelles sont mal adaptées les méthodes classiques de Traitement Automatique des Langues et d’Extraction d’Information. Aussi, bien qu’elles soient riches en informations, elles ne sont pas exploitées par les systèmes extrayant des informations à partir de textes. Dans cette thèse, nous proposons une méthode d’extraction adaptée aux Notes de Communication Orale. Cette méthode, nommée MEGET, est fondée sur une ontologie modélisant les connaissances contenues dans les textes et intéressantes du point de vue des informations recherchées (« ontologie d’extraction »). Cette ontologie est construite en unifiant une « ontologie des besoins », décrivant les informations à extraire, avec une « ontologie des termes », conceptualisant les termes du corpus à traiter liés avec ces informations. L’ontologie des termes est élaborée à partir d’une terminologie extraite des textes et enrichie par des termes issus de documents spécialisés. L’ontologie d’extraction est représentée par un ensemble de règles formelles qui sont fournies comme base de connaissance au système d’extraction SYGET. Ce système procède d’abord à un étiquetage des instances des éléments de l’ontologie d’extraction présentes dans les textes, puis extrait les informations recherchées. Cette approche est validée sur plusieurs corpus. Mots-clés : Extraction d’Information, Note de Communication Orale, Traitement Automatique des Langues Naturelles, Ontologie, Modélisation, Terminologie Abstract In spite of the rise of Information Extraction and the development of many applications in the last twenty years, this task encounters problems when it is carried out on atypical texts such as oral communication notes. Oral communication notes are texts which are the result of an oral communication (meeting, talk, etc.) and they aim to synthesize the informative contents of the communication. These constraints of drafting (speed and limited amount of writing) lead to linguistic characteristics which the traditional methods of Natural Language Processing and Information Extraction are badly adapted to. Although they are rich in information, they are not exploited by systems which extract information from texts. In this thesis, we propose an extraction method adapted to oral communication notes. This method, called MEGET, is based on an ontology which depends on the information to be extracted (“extraction ontology”). This ontology is obtained by the unification of an “ontology of needs”, which describe the information to be found, with an “ontology of terms” which conceptualize the terms of the corpus which are related to the required information. The ontology of terms is elaborated from terminology extracted from texts and enriched by terms found in specialized documents. The extraction ontology is formalized by a set of rules which are provided as a knowledge base for the extraction system SYGET. This system (1) carries out a labelling of each instance of every element of the extraction ontology and (2) extracts the information. This approach is validated in several corpora. Keywords: Information Extraction, Oral Communication Note, Natural Language Processing, Ontology, Modelling, Terminology Remerciements Je tiens en premier lieu à remercier Chantal ENGUEHARD qui a encadré mon travail de recherche durant cette thèse. Je lui exprime ma sincère gratitude pour son implication, son aide, son écoute, ses remarques et ses critiques qui m’ont toujours permis d’avancer. Je remercie chaleureusement Noureddine MOUADDIB et Pascal MUCKENHIRN pour leur aide et leur soutien tout au long de ces années de doctorat. Je remercie grandement François ROUSSELOT et Pierre ZWEIGENBAUM pour avoir accepté d’être rapporteurs de ma thèse. Merci pour vos remarques et vos commentaires pertinents. Je remercie également vivement Alexandre DIKOVSKY pour m’avoir fait l’honneur de présider mon jury. Un grand merci à Nordine FOUROUR et Benjamin HABEGGER avec qui j’ai eu la joie de partager le bureau 212 du LINA ainsi que beaucoup d’autres choses. Merci également à Lorraine GOEURIOT pour m’avoir supporté dans ce même bureau lors des derniers moments de ma thèse. Merci à toutes les personnes qui ont participé, de près ou de loin, à mes recherches et à l’élaboration de cette thèse. Je pense particulièrement aux membres de l’équipe TALN du LINA ainsi qu’à tous ceux, au laboratoire ou ailleurs, avec lesquels j’ai pu échanger avis, idées et conseils. Merci aux étudiants, aux enseignants et aux autres personnels de la Faculté des Sciences et Techniques de Nantes et de l’École Polytechnique de l’Université de Nantes, avec lesquels j’ai pris beaucoup de plaisir à effectuer des enseignements. Merci à LOGIN et à tous ses membres, passés ou présents, pour leur sympathie et leur disponibilité. Un clin d’œil particulier à ses présidents successifs qui ont su insuffler dynamisme et convivialité à cette association : bravo à Gaëtan, Gwen, Erwan, Sandra et Anthony. Merci à ma famille et particulièrement à mes parents Jean-Pierre et Martine, mon frère Arnaud et ma sœur Justine pour leur affection et leurs encouragements. Merci enfin à tous mes amis qui, à l’université ou en dehors, ont grandement contribué par leur présence, leur aide et leur appui, à l’accomplissement de cette thèse. Merci à Manu, Alexandra, Jérôme, Franck, Estelle, Lucas, Brice, Arnaud, Dallas, Sylvain, Élodie, Cédric, David, Mitch, Greg, Solène, Ghim, Fred, Anne-Gaëlle, Adrien, Solenne, Antoine, Gerson, Jim, Guillaume, Chloé, Éric, Charlotte, Pierre, Laura, Gilles, Éloïse, Jen, Marco, Morgan, Florence, Seb, Jérémie, Sophie, Ben, Alizée, Céline, Raphaëlle, Vincent, et tous ceux qui, même s’ils ne sont pas cités ici, se reconnaitront. Je vous dois beaucoup. Table des matières Introduction 1 Partie I – Extraire de l’information de Notes de Communication Orale 1 L’Extraction d’Information, définitions et objectifs 9 1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.1 Un besoin ancien et essentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.1.1 Enjeux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.1.2 Évolution de la tâche d’extraction . . . . . . . . . . . . . . . . . . . . . 12 1.2.2 Un composant de la Fouille de Textes . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.3 Extraction d’Information et Recherche d’Information . . . . . . . . . . . . . . 15 1.2.3.1 La Recherche d’Information : définition . . . . . . . . . . . . . . . . . 15 uploads/Litterature/ information-extraction-and-knowledge-modelling-from-oral-communication-notes-fabrice-even-phd-thesis.pdf
Documents similaires
-
24
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 20, 2022
- Catégorie Literature / Litté...
- Langue French
- Taille du fichier 2.1632MB