Universit´ e Paris Ouest - Nanterre - la D´ efense Universit´ e Paris III - Sor

Universit´ e Paris Ouest - Nanterre - la D´ efense Universit´ e Paris III - Sorbonne Nouvelle INALCO 2010 - 2011 Analyse syntaxique automatique Marcel Cori 1 Les probl` emes de l’analyse syntaxique 1.1 Introduction 1.1.1 L’analyse syntaxique en linguistique L’activit´ e du linguiste consiste, dit grossi` erement, ` a donner une description des langues et du langage. Il en r´ esulte la construction de mod` eles th´ eoriques et de grammaires ´ ecrites dans ces mod` eles. L’analyse syntaxique (automatique) constitue un dispositif exp´ erimental permettant de tester effectivement ces gramaires d’une mani` ere objective. La perspective de l’analyse syntaxique n´ ecessite l’´ ecriture de mod` eles parfaitement rigoureux et pr´ ecis´ ement d´ etaill´ es. 1.1.2 L’analyse syntaxique en traitement automatique des langues (TAL) On peut d´ efinir, de mani` ere tr` es simplifi´ ee, le TAL comme ´ etant constitu´ e des programmes qui prennent pour donn´ ees des productions langagi` eres, quand ces programmes tiennent compte des sp´ ecificit´ es des langues humaines. L’analyse syntaxique occupe une place centrale dans les programmes de TAL qui s’appuient sur la linguistique : si on d´ ecompose les traitements en des successions de sous-traitements, l’analyse syntaxique constitue un passage presque oblig´ e, avec en amont des pr´ etraitements qui permettent d’obtenir des d´ ecoupages en unit´ es de l’ordre du mot, et en aval des tˆ aches sp´ ecifiques aux applications envisag´ ees. Historiquement, apr` es l’´ echec reconnu de la traduction automatique, les algorithmes d’ana- lyse syntaxique sont devenus, pendant les ann´ ees 1960, l’axe des recherches en traitement auto- matique. Ce qui a conduit, jusqu’au ann´ ees 1980, au d´ eveloppement de formalismes syntaxiques. Actuellement, une importance moindre est donn´ ee ` a l’analyse syntaxique, en raison notamment des difficult´ es qui ont ´ et´ e mises en ´ evidence. 1.1.3 Analyse syntaxique et psycholinguistique Les syst` emes d’analyse syntaxique peuvent avoir pour ambition de simuler le comportement humain, mais ce n’est pas une obligation. Quoi qu’il en soit, ils permettent une r´ eflexion par la comparaison qui peut ˆ etre effectu´ ee entre les strat´ egies d’analyse employ´ ees par les machines et celles des ˆ etres humains. 1.2 Le sch´ ema th´ eorique de l’analyse syntaxique La donn´ ee d’entr´ ee doit ˆ etre une phrase ou un ´ enonc´ e ayant subi des pr´ etraitements et la sortie une (ou plusieurs) repr´ esentation(s) syntaxique(s) de cet ´ enonc´ e. 2 1.2.1 Sous quelle forme est l’´ enonc´ e ` a analyser? Selon les pr´ etraitements qui pr´ ec` edent (segmentation, analyse morphologique, ´ etiquetage, d´ esambigu¨ ısation), la donn´ ee d’entr´ ee de l’analyseur syntaxique peut ˆ etre sous plusieurs formes : (1) une suite de cat´ egories syntaxiques, dont la structure est ´ eventuellement complexe (cat´ e- gories accompagn´ ees de traits, structures de traits, cat´ egories au sens des grammaires cat´ ego- rielles,. . . ) ; (2) une suite d’ensembles de cat´ egories syntaxiques ; (3) une suite de formes lexicales ; (4) un ensemble de d´ ecoupages diff´ erents, par exemple pour un ´ enonc´ e tel que : Aujourd’hui l’arri` ere grand-p` ere sortira-t-il les pommes de terre? 1.2.2 L’information grammaticale L’information grammaticale n´ ecessaire ` a l’analyse est contenue dans la grammaire et le lexique, avec une r´ epartition diff´ erente selon le degr´ e de lexicalisation du mod` ele dans lequel on se place. La grammaire, s’il en existe une, est une donn´ ee d’entr´ ee de l’analyseur syntaxique. Le lexique peut rester une donn´ ee d’entr´ ee, mais il peut aussi n’ˆ etre pris en compte que dans les pr´ etraitements. ` A noter que dans les premiers travaux d’analyse syntaxique la gramaire ´ etait partie int´ egrante du programme. ` A l’heure actuelle, les donn´ ees grammaticales, dissoci´ ees des programmes, sont fournies par un utilisateur privil´ egi´ e des programmes : l’( ( expert ) ), qui connaˆ ıt les langues et/ou les formalismes linguistiques. 1.2.3 Sous quelle forme est le r´ esultat de l’analyse? Le r´ esultat de l’analyse syntaxique consiste en une (ou ´ eventuellement plusieurs) struc- tures syntaxiques, repr´ esentatives de la phrase d’entr´ ee. Les structures obtenues d´ ependent ´ evidemment du formalisme consid´ er´ e. Par exemple : un arbre syntagmatique, un arbre de d´ epen- dance, une structure de traits. Par ailleurs, un ( ( sous-produit ) ) de l’analyse peut ˆ etre la d´ esambigu¨ ısation de certaines cat´ egories syntaxiques. 1.3 Les m´ ethodes 1.3.1 Analyses descendantes ou ascendantes Deux types de m´ ethodes, qui correspondent ` a deux ( ( philosophies ) ) de l’analyse, sont pos- sibles. (1) Une analyse descendante, qui consiste ` a postuler la forme que peuvent prendre les phrases, et ` a v´ erifier si l’´ enonc´ e ` a analyser entre dans l’une des formes de phrases possibles. (2) Une analyse ascendante, qui consiste ` a partir des unit´ es qui constituent l’´ enonc´ e, et ` a v´ erifier si des regroupements de ces unit´ es sont possibles. En effectuant des regroupements de plus en plus grands, on tente d’obtenir des phrases. 3 1.3.2 La prise en compte des diff´ erentes possibilit´ es Les langues naturelles ´ etant ambigu¨ es, pour une mˆ eme phrase plusieurs analyses sont pos- sibles. Par exemple : Il regarde le singe avec un t´ el´ escope Mais, au cours du processus d’analyse, il peut apparaˆ ıtre diff´ erentes solutions (partielles) dont certaines ne sont pas correctes. Par exemple, si on analyse les deux phrases qui suivent au fur et ` a mesure de leur lecture : Paul a vu sa sœur et sa tante qui l’accompagnait Paul a vu sa sœur et sa tante n’´ etait pas contente La gestion de cette multiplicit´ e de solutions partielles peut s’effectuer selon plusieurs types de m´ ethodes : (1) Les m´ ethodes avec retour en arri` ere : on fait des hypoth` eses, et si ces hypoth` eses s’av` erent erron´ ees ` a un moment donn´ e, on les abandonne et on en essaye d’autres. (2) Les m´ ethodes en parall` ele : on essaye les diff´ erentes hypoth` eses simultan´ ement. (3) Les m´ ethodes d´ eterministes : on emploie une strat´ egie qui permet de faire le bon choix au fur et ` a mesure de l’analyse. Il est clair que ce type de m´ ethodes ne permet pas de r´ esoudre le cas des phrases r´ eellement ambigu¨ es. 1.4 Les probl` emes Les probl` emes se pr´ esentent quand on veut analyser du vrai texte. Il y a deux probl` emes essentiels et en fait contradictoires : si on veut s’attaquer ` a l’un, on aggrave l’autre. 1.4.1 La couverture des grammaires De nombreux ´ enonc´ es, pourtant parfaitement compris par des ˆ etres humains, sont rejet´ es par les analyseurs parce qu’aucune repr´ esentation n’en est possible selon les grammaires prises en compte. Il se peut que ce soient des ´ enonc´ es ( ( incorrects ) ) (mais qu’est-ce qu’un ´ enonc´ e incorrect?), ou tout simplement que la couverture de la grammaire soit insuffisante : un type de construction n’a pas ´ et´ e pr´ evu. La difficult´ e est qu’en accroissant la couverture des grammaires, on accroˆ ıt aussi le nombre des ambigu¨ ıt´ es. 1.4.2 Les ambigu¨ ıt´ es L’utilisation d’analyseurs qui s’appuient sur des grammaires cens´ ees rendre compte d’un fragment notable d’une langue conduit ` a la prodction d’analyses ambigu¨ es en une quantit´ e telle que l’int´ erˆ et de ces analyseurs est rendu douteux. On peut distinguer plusieurs sortes d’ambigu¨ ıt´ es : (1) Les ´ enonc´ es r´ eellement ambigus : ` a deux analyses distinctes correspondent deux sens distincts. Par exemple : Le boucher sale la tranche 4 Il mange une glace au caf´ e (2) Les ´ enonc´ es syntaxiquement ambigus, mais dont l’ambigu¨ ıt´ e est lev´ ee par les locuteurs humains ` a l’aide de connaissances s´ emantiques, ou de connaissances (extra-linguistiques) sur le monde. Par exemple : Il mange une glace au restaurant Il mange une glace au chocolat Le directeur de l’usine qui produit des tracteurs a t´ el´ ephon´ e ce matin Le directeur de l’usine qui fr´ equente ta sœur a t´ el´ ephon´ e ce matin La sœur du policier qui a ´ epous´ e ton cousin a t´ el´ ephon´ e ce matin (3) Les ´ enonc´ es non ambigus mais qui sont analys´ es comme ambigus en raison de la structure de la grammaire. Par exemple, le petit chien blanc sera ambigu avec la CFG comportant les r` egles : SN →det N1 N1 →adj N1 N1 →N1 adj N1 →N (4) Les ´ enonc´ es analys´ es comme ambigus parce que la division en cat´ egories syntaxiques de la grammaire est insuffisamment fine. Par exemple : Le boucher sale le tranche Le ministre a re¸ cu le conseiller ( vsLe ministre a pr´ ef´ er´ e le uploads/Management/ ana-syn-aut.pdf

  • 19
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 19, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.3135MB