Mémoire d’Habilitation à diriger des Recherches Des descriptions linguistiques

Mémoire d’Habilitation à diriger des Recherches Des descriptions linguistiques à leurs représentations Yvette Yannick Mathieu 27 janvier 2009 - Université Paris 7 Jury : Nicholas Asher, Directeur de recherche au CNRS Laurence Danlos, Professeur à l’Université Paris 7 Christiane Fellbaum, Research Professor, Princeton University (rapporteur) Alain Kihm, Directeur de Recherche au CNRS (rapporteur) Jean-Luc Minel, Professeur, Université Paris X Paul Sabatier, Directeur de Recherche au CNRS (rapporteur) tel-00372133, version 1 - 31 Mar 2009 tel-00372133, version 1 - 31 Mar 2009 1 TABLE DES MATIÈRES INTRODUCTION______________________________________________________3 CHAPITRE 1. QUATRE ÉTUDES IMPORTANTES SUR LE LEXIQUE ________7 1.1. LE LEXIQUE GRAMMAIRE____________________________________________7 1.1.1. Approche du Lexique Grammaire____________________________________________ 7 1.1.2. Les verbes de sentiment et psychologiques ____________________________________ 11 1.1.3. Les tables du lexique grammaire comme ressource en TAL ______________________ 13 1.2. L’ÉTUDE DES VERBES DE BETH LEVIN _______________________________15 1.2.1. Les alternances___________________________________________________________ 15 1.2.2. Les 49 classes de Beth Levin ________________________________________________ 17 1.2.3. Les verbes de sentiment et psychologiques ____________________________________ 18 1.2.4. La classification de Beth Levin comme ressource en TAL________________________ 21 1.3. WORDNET __________________________________________________________24 1.3.1. Organisation du lexique ___________________________________________________ 25 1.3.2. Les wordnets ____________________________________________________________ 28 1.3.3. WordNet, Ontologie et TAL ________________________________________________ 28 1.3.4. Wordnet et la classification de Beth Levin ____________________________________ 29 1.3.5. Exemple du verbe adore (Wordnet 2.1)_______________________________________ 30 1.3.6. En guise de synthèse ______________________________________________________ 31 1.4. LE DICTIONNAIRE DES VERBES FRANÇAIS DE DUBOIS ET DUBOIS-CHARLIER ________________________________________________________32 1.4.1. Description du dictionnaire ________________________________________________ 32 1.4.2. La classe des verbes psychologiques__________________________________________ 34 1.4.3. Le dictionnaire des verbes comme ressource en TAL ___________________________ 34 CHAPITRE 2. SENTIMENTS, ÉMOTIONS, ET OPINIONS : DESCRIPTIONS LINGUISTIQUES _______________________________________________________37 2.1. LES SENTIMENTS ET ÉMOTIONS _____________________________________37 2.1.1. Le mot__________________________________________________________________ 37 2.1.2. La proposition ___________________________________________________________ 45 2.1.3. La phrase : formation de paraphrase par nominalisation________________________ 47 2.1.4. Les sentiments dans un texte : traitements automatiques ________________________ 48 2.2. LES OPINIONS_______________________________________________________56 2.2.1. Le mot__________________________________________________________________ 56 2.2.2. Le segment et la phrase : Relations rhétoriques et évaluation des opinions__________ 60 2.2.3. Le texte : Évaluation et Annotation des expressions d’opinion____________________ 61 tel-00372133, version 1 - 31 Mar 2009 2 2.3. BILAN COMPARATIF DE NOS DESCRIPTIONS AVEC CELLES DU LEXIQUE GRAMMAIRE, DE BETH LEVIN ET DE WORDNET __________________65 2.3.1. Lexique grammaire _______________________________________________________ 65 2.3.2. Les verbes de Beth Levin __________________________________________________ 66 2.3.3. WordNet________________________________________________________________ 66 CHAPITRE 3. MODÈLES DE DONNÉES ET REPRÉSENTATIONS DES CONNAISSANCES ______________________________________________________69 3.1. AVANT LES SENTIMENTS : TRANSLEGS ET INTERFACILE______________69 3.1.1. TRANSLEGS____________________________________________________________ 69 3.1.2. INTERFACILE __________________________________________________________ 73 3.1.3. Comparaison de TRANSLEGS et INTERFACILE _____________________________ 75 3.2. LES SENTIMENTS : FEELING, FEELING-G ET L’ONTOLOGIE DES SENTIMENTS______________________________________________________________76 3.2.1. FEELING_______________________________________________________________ 76 3.2.2. FEELING-G_____________________________________________________________ 81 3.2.3. Du lexique sémantique à l’ontologie__________________________________________ 82 3.2.4. Annotation et navigation à travers les sentiments ______________________________ 83 3.3. REPRÉSENTATION DES EXPRESSIONS D’OPINION ____________________91 3.3.1. Représentation d’un segment d’opinion ______________________________________ 91 3.3.2. Représentation discursive d’un texte_________________________________________ 93 3.3.3. Représentation générale des opinions dans un texte_____________________________ 93 3.4. ÉVOLUTION DES REPRÉSENTATIONS DES CONNAISSANCES UTILISÉES ___________________________________________________________________________96 CONCLUSION _______________________________________________________99 BIBLIOGRAPHIE ___________________________________________________103 TABLE DES FIGURES _______________________________________________109 TABLE DES TABLEAUX _____________________________________________111 tel-00372133, version 1 - 31 Mar 2009 3 INTRODUCTION Bien souvent, la façon de considérer la langue est très différente du point de vue des informaticiens et de celui des linguistes. Si ces divergences tendent à s’amenuiser, elles étaient importantes quand nous avons commencé à nous intéresser à la linguistique et au TAL, au début des années 1980. Nous avons pu le vérifier lors de notre mémoire de DEA d’informatique fondamentale (option traitement de l’information, Université Paris 6, 1981) qui avait pour sujet « La correction automatique des fautes d’orthographe » dans un texte. Nous venions d’arriver au LADL dirigé par Maurice Gross, et lui avions demandé conseil pour la façon d’aborder ce problème. Mais lui et le professeur d’informatique responsable du DEA, avaient des avis totalement divergents au sujet du traitement de la langue. Pour le linguiste, bien sûr, la langue était l’objet d’étude, phénomène extrêmement complexe, qu’il faudrait simplifier (bien que difficilement simplifiable) pour un traitement automatique, alors que du point de vue de l’informaticien l’important était la réalisation informatique, la langue n’étant qu’une application comme une autre, ne présentant pas de difficultés particulières. Notre approche rejoint entièrement celle de Maurice Gross, mais nous avons tenté dans nos travaux d’avoir à la fois une approche linguistique et une approche informatique, tout en essayant de ne pas appauvrir la description linguistique lors de la formalisation et de l’implémentation. Les recherches du LADL étaient essentiellement orientées vers la constitution du lexique grammaire du français, c’est pourquoi nous nous sommes très vite intéressée au lexique. Mais, jusqu’à notre travail de thèse, notre activité était essentiellement orientée vers le choix des représentations et leur implémentation. La linguistique et la sémantique lexicale en particulier sont devenues des éléments centraux de notre activité de recherche à partir de notre travail de thèse sur les verbes de sentiment, en 1994. Nous avons approfondi et complété cette étude en y intégrant les noms et les adjectifs ainsi que certaines propriétés tel-00372133, version 1 - 31 Mar 2009 4 les caractérisant. Nous avons ainsi fait une description linguistique détaillée et formalisée de l’expression des sentiments en français, dont nous avons vérifié la validité par le développement du système FEELING. Des travaux connexes nous ont montré l’intérêt d’exploiter ces descriptions pour le repérage des expressions de sentiment dans des textes, et la nécessité de les représenter avec un format standard comme celui qui sera défini plus loin des « ontologies ». Puis, nous avons élargi ce champ sémantique à un domaine voisin, celui des opinions. Ces deux champs sémantiques sont proches, ils relèvent tous deux de la sphère affective ou intellectuelle d’une personne, et se recoupent en partie car de nombreuses opinions sont l’expression de sentiments comme l’indignation, la colère ou l’admiration. Nous avons adopté une approche légèrement différente car nous avons d’abord établi une typologie sémantique des expressions d’opinions que nous avons ensuite associée à une analyse de la structure rhétorique des segments textuels contenant ces expressions, ce qui permet une étude détaillée des opinions dans les textes. Ces travaux sur les opinions sont menés en collaboration avec Farah Benamara et Nicholas Asher (IRIT, Toulouse). Nous n’aborderons pas dans ce mémoire d’autres thématiques de recherche auxquelles nous nous sommes intéressée et qui ont contribué à nourrir notre réflexion comme l’étude des « formes en –o », par exemple franco-québécois ou médico-légal, en collaboration avec Blandine Courtois et André Dugas (Dugas et al. 1992, 1995), ou l’extraction automatique de néologismes (Mathieu 1998a, 1998b). Une part importante de nos recherches a été consacrée à la modélisation des connaissances ; c’est ainsi que nous nous sommes intéressée aux grammaires de construction (Mathieu 2003), développées en particulier par Charles Fillmore (1988). Ce mémoire s’organise en trois parties. Dans la première partie nous présentons quatre approches sur le lexique qui nous semblent des étapes importantes parmi les nombreux travaux qui lui ont été consacrés. Ces études ont été réalisées avec des objectifs différents des nôtres, mais sont voisines par certains aspects de l’approche que nous avons adoptée dans nos descriptions. Pour une lecture plus facile, nous avons préféré, bien que cela puisse sembler parfois fastidieux, laisser des exemples complets plutôt que de les mettre en annexe. Les deux parties suivantes illustrent bien les deux axes de recherche que nous avons eus constamment en parallèle lors de nos travaux : une approche de linguistique descriptive en sémantique lexicale, et une approche formelle en vue de traitements automatiques dans la représentation des connaissances. Nous expliciterons les différentes descriptions linguistiques que nous avons réalisées et leur complexification au fil du temps, et nous montrerons comment les représentations de ces connaissances, et les traitements et outils pour les exploiter, ont suivi une évolution parallèle. Cela nous amènera parfois à certaines redites, nécessaires pour la compréhension du lecteur. tel-00372133, version 1 - 31 Mar 2009 5 Plutôt que de faire un exposé exhaustif de ces travaux, qui ont été publiés par ailleurs, nous en dégagerons des éléments permettant d’expliquer les problématiques auxquelles nous nous sommes intéressée dans notre parcours. Dans la présentation de ce mémoire nous utilisons le « nous » en place du « je », excepté pour la partie consacrée d’une part au système INTERFACILE et d’autre part aux travaux sur les opinions, où il s’agit d’un « nous » collectif qui désigne respectivement Paul Sabatier et moi-même, et Nicholas Asher, Farah Benamara et moi-même. tel-00372133, version 1 - 31 Mar 2009 6 tel-00372133, version 1 - 31 Mar 2009 7 CHAPITRE 1. QUATRE ÉTUDES IMPORTANTES SUR LE LEXIQUE Nous présentons dans ce chapitre plusieurs approches importantes dans l’étude du lexique. Les trois premières (le Lexique grammaire de Maurice Gross et collaborateurs, les classes de verbes de Beth Levin et WordNet) sont des travaux qui nous ont influencée à divers titres ; bien qu’il tienne une place moindre dans nos travaux nous mentionnons également le dictionnaire des verbes de Jean Dubois et Françoise Dubois-Charlier car il s’inscrit parmi les descriptions importantes des verbes du français . 1.1. LE LEXIQUE GRAMMAIRE 1.1.1. Approche du Lexique Grammaire L’approche du Lexique-grammaire est essentiellement syntaxique, elle repose sur l'hypothèse qu'on ne peut formuler de règles de grammaire uploads/Litterature/ hdr-mathieu.pdf

  • 12
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager