Université catholique de Louvain Faculté des Sciences Appliquées Département d'

Université catholique de Louvain Faculté des Sciences Appliquées Département d'Ingénierie Informatique Implémentation d'une Interface Sémantique-Syntaxe basée sur des Grammaires d'Uni cation Polarisées Pierre Lison Mémoire présenté en vue de l'obtention du grade Promoteur: Prof. Pierre Dupont d'ingénieur civil Co-promoteur: Prof. Cédrick Fairon en informatique. Louvain-la-neuve Année Académique 2005-2006  Une nouvelle période commence, où des chercheurs d'abord séparés par leur formation de départ - mathématique, psychologie, philologie - se rapprochent et contribuent à l'édi cation d'une linguistique unique. C'est une période où l'on ré échit sur les di cultés rencontrées par les premières expériences sur ordinateurs, et où l'on révise et approfondit les notions de base. Il n'en apparaît que mieux à quel point Tesnière était allé droit à l'essentiel.  Jean Fourquet, préface à la deuxième édition des Eléments de Syntaxe Structurale de Lucien Tesnière, 1976.  Tous les moyens de l'esprit sont enfermés dans le langage ; et qui n'a point ré échi sur le langage n'a point ré échi du tout.  Alain, Propos sur l'éducation, 1932. Abstract This work relates to Natural Language Processing [NLP], a scienti c research eld situated at the intersection of several classical disciplines such as computer science, linguistics, mathema- tics, psychology, and whose object is the design of computational systems able to process (i.e. understand and/or generate) linguistic data, whether oral or written. In order to achieve that goal, it is often necessary to design formal models able to simulate the behaviour of complex linguistic phenomena. Several theories have been elaborated to this end. Signi cent divergences do exist between them concerning linguistic foundations as well as grammatical formalisms and related computer tools. Nevertheless, many eorts have recently been made to bring them closer together, and two major trends clearly seem to emerge from the main contemporary theories :  They are all built around modular architecture, explicitly distinguishing the semantic, syn- tactic, morphological and phonological representation levels ;  They all give a central position to the lexicon, rightly seen as a crucial resource for the establishment of e cient and wide-coverage systems. This study examines an essential component of all these models : the semantics-syntax inter- face, responsible for the mapping between the semantic and syntactic levels of the architecture. Indeed, many distortion phenomenas can be found in every human language between these two levels. Let us mention as examples the handling of idioms and locutions, the active/passive al- ternation, the so-called extraction phenomenas (relative subordinates, interrogative clauses), elliptic coordination, and many others. We approach this issue in the framework of a particular linguistic theory, the Meaning-Text Uni cation Grammars [MPUG] (Kahane, 2002; Kahane et Lareau, 2005), an articulated mathe- matical model of language recently devised by S. Kahane, and his related description formalism, Polarized Uni cation Grammars [PUG] (Kahane, 2004). The rst part of our work deals with the general study of the role and inner workings of the semantics-syntax interface within this theory. We then propose a concrete implementation of it based on Constraint Programming. This implementation is grounded on an axiomatization of our initial formalism into a Constraint Satisfaction Problem. Rather than developing the software entirely from scratch, we have instead chosen to reuse an existing tool, the XDG Development Kit, and to adapt it to our needs. It is a grammar deve- lopment environment for the meta grammatical formalism of Extensible Dependency Grammar [XDG] (Debusmann, 2006), entirely based on Constraint Programming. Practically, this work makes three original contributions to NLP research : 1. An axiomatization of MTUG/PUG into a Constraint Satisfaction Problem, enabling us to give a solid formal ground to our implementation ; 2. An implementation of our semantics-syntax interface by means of a compiler from MTUG/- PUG grammars to XDG grammars called auGUSTe as well as by the integration of eight new principles (i.e. constraints sets) into XDG ; 3. And nally, the application of our compiler to a small hand-crafted grammar centered on culinary vocabulary in order to experimentally validate our work. Résumé Le présent travail s'inscrit dans le cadre du Traitement Automatique des Langues Naturelles [TALN], un domaine de recherche actuellement en plein essor, situé à l'intersection de plu- sieurs disciplines (informatique, linguistique, mathématiques, psychologie) et dont l'objectif est la conception d'outils informatique permettant de traiter (i.e. comprendre et/ou synthétiser) des données linguistiques écrites ou orales. Pour ce faire, il est souvent nécessaire de conçevoir des modélisations formelles permettant de simuler le comportement de certains phénomènes linguistiques complexes. De nombreuses théo- ries ont été élaborées à cet eet. Des divergences considérables apparaissent parfois entre elles, tant au au niveau des fondements linguistiques que des formalismes et des outils informatiques développés. Néammoins, la tendance actuelle est plutôt au rapprochement, et deux orientations semblent clairement se dégager au sein des principales théories contemporaines :  Elles sont tous construites autour d'une architecture modulaire distinguant explicitement les niveaux de représentation sémantique, syntaxique, morphologique et phonologique ;  Elles accordent une place essentielle au lexique, considéré à juste titre comme une ressource cruciale pour le développement d'outils performants et à large couverture. Ce mémoire s'intéresse à une composante fondamentale de tous ces modèles : l'interface sémantique-syntaxe, chargée d'assurer la correspondance entre les niveaux sémantique et syn- taxique de l'architecture. Il existe en eet dans chaque langue d'importants phénomènes de distorsion entre les deux niveaux. A titre d'exemple, mentionnons le traitement des expressions gées et des collocations, l'alternance actif/passif, les phénomènes dits d'extraction (relatives, interrogatives indirectes), la coordination elliptique, et bien d'autres. Nous abordons cette question dans le cadre d'une théorie linguistique particulière, les Gram- maires d'Uni cation Sens-Texte [GUST] (Kahane, 2002; Kahane et Lareau, 2005), un modèle mathématique articulé de la langue récemment développé par S. Kahane , et de son formalisme de description associé, les Grammaires d'Uni cation Polarisées [GUP] (Kahane, 2004). La première partie de notre travail porte sur l'étude théorique du rôle et du fonctionnement de l'interface sémantique-syntaxe au sein de cette théorie. Nous proposons ensuite une implé- mentation concrète basée sur la programmation par contraintes. Cette implémentation est fondée sur une axiomatisation de notre formalisme initial en un problème de satisfaction de contraintes. Plutôt que de conçevoir de bout en bout l'entièreté de notre programme, nous avons choisi de réutiliser un outil déjà existant, XDG Development Kit, et de l'adapter à nos besoins. Il s'agit d'une plateforme de développement de grammaires issues du formalisme meta-grammatical Extensible Dependency Grammar [XDG] (Debusmann, 2006), basé sur la programmation par contraintes. En pratique, ce mémoire présente trois contributions originales à la recherche en TALN : 1. Une axiomatisation théorique de GUST/GUP en un problème de satisfaction de contraintes, nous permettant ainsi de donner un assise formelle solide à notre travail ; 2. Une implémentation de notre interface sémantique-syntaxe par le biais d'un compilateur de grammaires GUST/GUP en grammaires XDG, baptisé auGUSTe, ainsi que d'un ensemble de huit principes (i.e. ensembles de contraintes) supplémentaires intégrés à XDG ; 3. Et en n, l'application de notre compilateur à une mini-grammaire construite par nos soins et axée sur le vocabulaire culinaire, a n de valider expérimentalement notre travail. Remerciements Le présent travail aurait di cilement pu aboutir sans le concours de nombreuses personnes que je tiens à remercier. Je pense tout d'abord à mes deux promoteurs, Pierre Dupont et Cédrick Fairon, pour leur soutien et leurs conseils avisés tout au long de l'élaboration de ce mémoire. Ils ont parfaitement su canaliser mon enthousiasme pour le sujet en m'aidant à bien le circonscrire et distinguer l'essentiel de l'accessoire. Leur insistance à souligner l'importance des questions empiriques me fut également très pro table. J'adresse mes plus vifs remerciements à Sylvain Kahane (Prof. à l'Université de Paris 10) pour son aide précieuse et ses éclairages toujours pertinents. Depuis notre entrevue à Paris au printemps dernier qui a permis de mettre le sujet sur les rails, il a constamment soutenu ce travail et s'est toujours montré disponible pour mes questions, parfois bien naïves. Je remerçie également François Lareau (doctorant à Universitat Pompeu Fabra, Barcelone) pour ses remarques judicieuses concernant mon travail. J'espère que mon implémentation pourra lui être d'une certaine utilité pour l'avancement de sa thèse, qui promet d'être bien intéressante. Je tiens à exprimer ma reconnaissance à Denys Duchier (Prof. à l'Université d'Orléans) et à Ralph Debusmann (chercheur à l'Universität des Saarlandes, Saarbrücken) pour leur aide particulièrement utile à propos de XDG. Merci également à Piet Mertens (Prof. à la K.U.Leuven) pour notre entrevue en novembre dernier, qui m'a éclairé sur certains aspects obscurs des grammaires de dépendance. En n, last but not least, je tiens à exprimer ma profonde gratitude à mes proches, parents et amis, qui m'ont constamment et chaleureusement soutenu durant ces années d'études, et qui m'ont permis de faire de ce passage à Louvain-la-Neuve une formidable expérience, intellectuelle bien sûr, mais aussi et surtout humaine. TABLE DES MATIÈRES Table des matières 1 Introduction 9 1.1 Le Traitement Automatique du Language Naturel (TALN) . . . . . . . . . . . . . 10 1.1.1 Domaines . . . . . . . . . uploads/Science et Technologie/ memoire-plison-pdf.pdf

  • 35
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager