Langages « Dictionnaires électroniques et traduction automatique » M. Maurice G
Langages « Dictionnaires électroniques et traduction automatique » M. Maurice Gross Abstract Maurice Gross : « Dictionnaires électroniques et traduction automatique » Fourty years after the Georgetown historical experiment in Mechanical Translation, we review the trend and progress of the field. We discuss in particular the lack of a programme of construction of dictionaries and grammars. We show how this situation has hampered progress and we give samples of electronic dictionaries of French as they are currently used in a system of analysis of texts. Citer ce document / Cite this document : Gross Maurice. « Dictionnaires électroniques et traduction automatique ». In: Langages, 28ᵉ année, n°116, 1994. Le traducteur et l'ordinateur. pp. 48-58; doi : 10.3406/lgge.1994.1693 http://www.persee.fr/doc/lgge_0458-726x_1994_num_28_116_1693 Document généré le 31/05/2016 Maurice GROSS Université Paris 7 Laboratoire d'Automatique Documentaire et Linguistique DICTIONNAIRES ÉLECTRONIQUES ET TRADUCTION AUTOMATIQUE Le domaine de la traduction automatique (TA), si domaine il y a, fête en cette année 1994 son quarantième anniversaire. C'est l'occasion d'en examiner les progrès. L'expérience historique de 1954 à l'Université de Georgetown consistait en une traduction mot à mot de russe en anglais. Cette procédure est en apparence rudi- mentaire, en tout cas la plus simple qu'il soit possible de mettre en œuvre. Nous nous arrêterons sur cette activité pour mettre en valeur les difficultés majeures de l'entreprise. Une traduction automatique mot à mot part d'un texte sur support informatique et par consultation d'un dictionnaire fournit une traduction pour chacun de ses mots. Rappelons que les textes ne sont disponibles sur support informatique que depuis que les micro-ordinateurs ont remplacé les machines à écrire, c'est donc une situation entièrement neuve et peu stable, dont les conséquences techniques, juridiques, commerciales et culturelles sont encore mal cernées. Auparavant, l'introduction de textes en machine constituait une étape coûteuse du processus de traitement. C'est encore souvent le cas aujourd'hui, lors de la récupération de textes sur support papier. Mais nous nous intéresserons surtout à la consultation des dictionnaires. L'exercice scolaire du thème ou de la version nous a tous placés dans une situation embarrassante : ayant recherché dans un dictionnaire un mot inconnu, le dictionnaire propose plusieurs solutions. Laquelle choisir ? C'est bien sûr la compréhension des autres éléments du texte qui permet le choix, encore faut-il que ces autres mots aient déjà reçu une traduction correcte. C'est là qu'un difficile jeu de devinettes intervient, au cours duquel même une grande ingéniosité ne peut éviter faux-sens et contre-sens. Qu'en est-il de la machine qui par nature ne dispose pas des mécanismes que met en jeu le traducteur humain : sa souplesse de raisonnement par tâtonnements multiples et son évaluation de la plausibilité des interprétations ? Un ordinateur peut explorer les contextes à droite et à gauche d'un mot en vue de résoudre les ambiguïtés, mais pour ce faire, il doit disposer d'informations strictement codifiées qui auront été introduites au préalable dans son dictionnaire et dans sa grammaire. Ces deux composants sont donc cruciaux dans le traitement automatique de textes et pas seulement pour la traduction mot à mot. 48 Toutefois, le courant majoritaire des recherches en traitement automatique des langues y compris en traduction automatique assistée (TAO) ou non, ne prend jamais en compte le composant du dictionnaire. Ce n'est que dans les produits commerciaux qui vont de SYSTRAN à EUROLANG que des dictionnaires ont été intégrés aux systèmes de TAO. Il en va de même pour les grammaires. C'est donc un paradoxe de constater que pendant quarante ans, les recherches sur l'analyse automatique du texte et la traduction se sont poursuivies sans dictionnaires ni grammaires et sans aucun programme scientifique de construction de ces composants. Les approches dites de recherches ont pris une orientation différente, elles font intervenir d'autres activités et procédures que la mise en œuvre des données linguistiques fondamentales. Examinons les principales de ces activités. L'étiquetage Les travaux sur l'étiquetage de textes (en anglais « tagging ») ont pour but d'attacher aux mots d'un texte leurs attributs grammaticaux. Les procédures mettent en jeu des analyses morphologiques et des tests sur les contextes : par exemple la détection en français du suffixe ations permet d'affirmer qu'il appartient à un substantif féminin pluriel. L'exemple de cations substantif masculin pluriel est une exception, celui de rations est plus complexe et plus général : le mot est ambigu, c'est le verbe rater ou bien le pluriel du nom ration. Le verbe rations est à la première personne du pluriel, on a alors la quasi certitude que le pronom sujet nous apparaîtra dans son voisinage immédiat. Un test formel simple lèvera donc cette ambiguïté. On notera bien que l'étiquetage n'est pas une simulation par ordinateur de l'exercice scolaire d'analyse grammaticale, l'élève est dans une situation différente, puisqu'il comprend le texte (en partie grâce à son dictionnaire interne). La finalité de ces travaux n'est pas claire, car même si les résultats de l'étiquetage étaient de bonne qualité, ce qui reste à démontrer, l'information attachée aux mots d'un texte sera limitée aux seules valeurs grammaticales. Or de nombreuses autres informations sont indispensables à l'analyse utile des textes. Il a bien été proposé que des textes étiquetés pourraient faire l'objet de statistiques sur des séquences de catégories grammaticales, ce qui permettrait éventuellement de dégager des régularités qui faciliteraient l'analyse automatique. L'étiquetage a récemment fait l'objet d'une généralisation spectaculaire : en étiquetant des textes bilingues les statistiques pourraient dégager des régularités de traduction et donc intervenir en TA ou TAO. Les résultats obtenus aujourd'hui par l'étiquetage d'une seule langue sont bien maigres, on ne peut guère s'attendre à des améliorations dans le cadre de deux langues couplées par une traduction. La modélisation Les recherches sur les modèles linguistiques adéquats au traitement automatique des langues sont nombreuses et anciennes. Elles n'ont jamais mis en jeu de diction- 49 naires ni de grammaires x, maie pour des raisons autres que dans le cas de l'étiquetage. Les modèles ont fait l'objet d'une élaboration logique raffinée et il en existe un grand nombre, chacun avec un grand nombre de variantes, aucun ne met en jeu plus de quelques dizaines ou centaines d'éléments lexicaux et plus de quelques dizaines de règles les combinant. Tout l'effort porte donc sur des définitions de formalisme sans préoccupation de leur adéquation empirique. On suppose qu'un modèle élaboré pourra être chargé d'un bon dictionnaire du commerce et qu'il fonctionnera alors en toute généralité. Bien sûr, le dictionnaire du commerce n'est pas adapté à la machine, il devra donc subir un formatage. Un pont sera établi entre les deux types de dictionnaires, grâce à des travaux qui, s'ils aboutissent, permettront une récupération automatique d'informations à partir des bandes de photocomposition des dictionnaires . En apparence, ces deux approches présentent une certaine logique, elles ont d'ailleurs suscité des financements importants de la recherche européenne, mais on va voir qu'un simple examen des besoins en dictionnaires pour ordinateurs (cf. annexe) montre l'absence de pertinence de ces tentatives pour les problèmes et explique ainsi l'absence totale de résultats. Premières observations sur les besoins en dictionnaires Mots simples Des expériences faites au LADL sur des corpus variés donnent une première indication sur la couverture des dictionnaires du commerce dont les entrées sont des mots simples (e.g. Lexis de Larousse, Petit Robert, Dictionnaire de Notre Temps, Hachette). Ces dictionnaires comportent de l'ordre de 80 000 entrées simples 2. L'équivalent électronique, le DELA construit au LADL, contient un peu plus de 90 000 entrées (B. Courtois, 1990). Chacune de ces entrées comporte des codes de flexion (conjugaison, mise au féminin, au pluriel) qui engendrent plus de 700 000 formes fléchies, ce sont les formes rencontrées dans les textes. La procédure de flexion attache à chaque forme ses valeurs grammaticales. L'expérience qui consiste à consulter ce dictionnaire pour un corpus de textes techniques, littéraires et journalistiques, indique des taux de couverture variant entre 70 % et 80 % 3. Autrement dit, si on définit un mot formel comme une séquence de caractères d'un texte limitée par deux séparateurs (blancs et ponctuation), une proportion d'un mot du texte sur cinq ne figure pas dans le dictionnaire. Ces échecs de consultations sont de différents types : — mots numériques (chiffres arabes ou romains), — noms propres, 1. À l'exception notable des grammaires en chaîne de N. Sager, 1981 et M. Salkoff, 1979 qui ont une couverture grammaticale importante de l'anglais et du français. 2. À ce stade de l'analyse du texte, on ne prend pas en compte les mots composée, formés de plusieurs mots simples. 3. Ce traitement automatique est réalisé par la station INTEX d'ingénierie linguistique (M. Silberztein, 1993). 50 — mote absents des dictionnaires : par exemple, les mots inrenouvelable et inrenouvelabilité ne figurent dans aucun dictionnaire du commerce, leur recherche suppose une analyse morphologique intuitive du locuteur qui reconnaîtra sans trop de peine la base verbale renouveler. La recherche des mots d'un texte dans un dictionnaire purement grammatical comme le DELA apporte une information qui sera utilisée pour effectuer une analyse plus approfondie du texte. Mais compte tenu de la proportion des mots non reconnus (entre 20 % uploads/Management/ gross-dictionnaires-electroniques-et-traduction-automatique.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/yXmRpTx0mMqNpzUgioQxnmjmE8o1eg3kvrjD0B7SeZy0VmGIPHQBfAaOPbNu4F98ptCLlqyvdbSLufDI4FkMQcYn.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/TWEkLZavYgG9gOWAt0TrKOHERcKtXx0SlaxWrGIjOU7STQsw6vnlod9QL15hprwwk0U5VrRwIlMMF0Sl2msJfcOG.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/6Ak1iOQqUuSmpHdvoNbPJnpYWOvmEPryaMYD7NSLRJvxwVnEBTUCLF71qaeLyiC3FM9bCOuTvgqojQhU4Xs909r8.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/JI6dZk0AxT6S2ZEuYhpHM5gxViihnoYHmR5ibki24z8fZ9DbhaVg83KY3QMHzieEDFSWv48txAQVVo1xRKeECrTD.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/7IZFBcfKpKo58OLFxViB1bk7VuYH8uuX4m8chrsuIIS0Hi32FBHaRzwP6XhqxhzLnP1QvHPWahF6zLCp829wyls1.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/Pw7P8ajDF8AbVSONWAypjgj6fq4XciQJonzpFY3NPIdGseFv6QEi8rhogLGDyg8O8DbH5s2XmQsF8DoXtNjj2zWi.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/w1JHCPHNh322AOAbrXVmkYofdzHfTEFTpV8Q3j2XQOcr4RCzInepPuMPOiakrlRsU390HJ9sVJB7XhniO6Fq3bJR.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/GsMKw3v1bbqVBEU6D0BLDMgdCjQapCERQXyAnzjwM3JXjrRZJQ2XF97zRj8k5Im6YocaaWYZKOB2R9Qtz9AKvLJd.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/QjpIckFYR2Ai8Qh1F7bhsH9oG2XAWU3yQwrwlERmGCVVGXy7XEgcmeTXdKy7zc751o1s6tKYuttO4EywTprus7m9.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/Ev7eQl6M1jSKznq1zqGFtCeq9aWnu5blbDE18uDCz5GI3l36XwFpFXmXudwU21EgRWulAHm5cdYAePRX0BvmlMNC.png)
-
17
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jul 30, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.9515MB