BUTS ET MÉTHODES DE L'ÉLABORATION DES DICTIONNAIRES ÉLECTRONIQUES DU LADL Bland
BUTS ET MÉTHODES DE L'ÉLABORATION DES DICTIONNAIRES ÉLECTRONIQUES DU LADL Blandine COURTOIS, LADL, CNRS, Université Paris 7. "L'élaboration d'un dictionnaire général de la langue exige un travail assidu, poursuivi durant de longues années. Il faut, pour s'y astreindre, une foi persévérante dans l'utilité de l'effort." Paul Robert. Introduction au Grand Robert de la Langue Française. Ces mots de Paul Robert, placés en tête de la première édition de son Grand Dictionnaire, peuvent également servir d'introduction aux dictionnaires électroniques. En effet, ceux-ci comme celui-là sont le résultat d'un important travail de rassemblement, d'analyse, de présentation et de contrôles de données linguistiques en très grand nombre. Toutefois, si l'effort et la persévérance sont identiques pour les deux types de dictionnaires et si la description de la langue est leur objet commun, nous verrons que là s'arrête la comparaison et qu'on ne saurait utiliser un dictionnaire usuel mis sur support magnétique comme dictionnaire électronique. Cahier du CIEL 1994-1995 88 1. PRÉSENTATION GÉNÉRALE DU SYSTÈME DELA 1.1. BUTS Le système DELA des Dictionnaires Électroniques du LADL est un système linguistique et informatique, qui regroupe - des modules de description de la langue française, - des programmes de traitement des données. Le but est l'analyse automatique des textes et, à plus long terme, la communication en langue naturelle avec l'ordinateur. Or ce dernier requiert des modèles formellement définis et une cohérence absolue dans les descriptions. C'est pour répondre à ces exigences que sont élaborés les dictionnaires électroniques, construits comme des bases structurées où les unités de la langue sont répertoriées sur leur aspect formel et où les propriétés linguistiques sont décrites sous une forme utilisable par l'ordinateur. 1.2. COMPARAISON AVEC LES DICTIONNAIRES USUELS Face aux besoins de la machine, les dictionnaires traditionnels informatisés ne sont pas adaptés. D'une part les différents dictionnaires du commerce ne sont pas tous équivalents, ayant chacun une couverture lexicale limitée qui correspond aux objectifs visés par l'éditeur. D'autre part, tous supposent une compétence du lecteur, appelé à mettre en jeu implicitement ses connaissances du monde, sa faculté d'interprétation des définitions, sa compréhension des mots par analogie avec d'autres mots ou avec des mécanismes de création connus. Ainsi, les adjectifs en -able, dérivés de verbe (délocaliser-délocalisable), les préfixations en re- (recoder, recodage), les adverbes en -ment,... sont sous-représentés, même dans les grands dictionnaires. Du fait que la dérivation est régulière et intuitivement comprise, elle est omise. Sans doute, de telles entrées ne sont pas indispensables pour un lecteur compétent, mais il n'en va pas de même pour l'ordinateur. En B. COURTOIS - Dictionnaires Électroniques du LADL 89 effet la première tâche de ce dernier, lors de l'analyse de textes, est la consultation des mots dans le dictionnaire. L'absence d'un seul mot entraîne alors l'échec de la consultation, aussi tous les mots valides rencontrés dans des textes et publications variées doivent-ils être représentés en entrée de dictionnaire électronique. D'où la nécessité d'une large couverture lexicale, tendant vers l'exhaustivité, bien que celle-ci ne puisse être réellement atteinte. Si les entrées des dictionnaires du commerce ne peuvent suffire, le contenu des articles est également inexploitable pour un analyseur syntaxique. Certaines données comme la définition ou l'étymologie lui sont inutiles. D'autres comme les catégories de discours sont essentielles, mais ne sont pas toujours notées de façon identique dans toutes les entrées. Or, il est indispensable d'avoir une standardisation du format des données décrites, c'est-à-dire une codification systématique et rigoureuse des articles. Ceci signifie que les informations associées à chaque mot d'entrée doivent toutes être explicites, ou, si elles ne le sont pas, doivent pouvoir être calculées par un algorithme connu de l'ordinateur, explicitement formulé dans une partie du système. En définitive, la différence entre dictionnaires traditionnels et dictionnaires électroniques pourrait être résumée ainsi : - les dictionnaires d'usage, même transcrits sur support informatique, sont destinés à des lecteurs humains. Ils sont en conséquence orientés vers la définition des mots et la signification de leurs emplois. - les dictionnaires électroniques sont construits pour l'ordinateur. Ils sont alors focalisés sur la description formelle des objets de la langue et leur classification systématique. Ce sont donc des ensembles très spécifiques de données qui sont ainsi élaborés et qui constituent le système DELA. 1.3. ORGANISATION DES TRAVAUX DU LADL. Structurellement, le système DELA est organisé en plusieurs modules. La répartition des données dans chaque Cahier du CIEL 1994-1995 90 module est effectuée d'après la forme des mots d'entrée et la nature des informations qui les accompagnent. La configuration générale du système se compose des ensembles de données linguistiques suivants : - dictionnaires de mots simples, DELAS et DELAF, - dictionnaires de mots composés, DELAC et DELACF, - dictionnaires phonémiques, DELAP et DELAPF, - tables syntaxiques, regroupées en lexique-grammaire, - graphes et automates. A ces ensembles sont associés des outils de traitements informatiques. Entre autres : - des programmes de génération de formes fléchies, - des programmes de phonémisation automatique, - un logiciel d'interrogation de textes, où sont intégrées de nombreuses fonctionnalités, et réalisé par Max Silberztein. Ce dernier, dans son ouvrage sur les dictionnaires électroniques, donne une description détaillée des possibilités offertes par ce logiciel, diffusé sous le nom INTEX. L'exposé qui suit concerne uniquement la partie linguistique du système DELA. Tout d'abord, le contenu de chacune des structures de données linguistiques sera présenté succinctement. Puis quelques particularités et problèmes liés à l'élaboration des dictionnaires électroniques seront mis en relief. 2. STRUCTURES DE DONNÉES LINGUISTIQUES 2.1. DICTIONNAIRES DE MOTS SIMPLES D E L A S est le dictionnaire électronique des mots formellement simples du français. Ces mots sont mis sous leur forme canonique, dans l'ordre alphabétique, et sont suivis d'une codification systématique de leur catégorie grammaticale et d'un B. COURTOIS - Dictionnaires Électroniques du LADL 91 code morphologique pour les mots variables. Chaque entrée est dotée en outre d'un numéro d'appartenance à une couche lexicale donnée. De plus, des marques sémantiques sont associées aux noms, et des renvois vers des tables de constructions syntaxiques accompagnent les verbes. Exemples : inviter,"1.V3(t;11) Verbe de classe V3 précepteur,"1.N36(Hum) Nom humain, classe N36 légal,"1.A76 Adjectif, classe A76. Les codes morphologiques du DELAS renvoient à des classes flexionnelles, établies au préalable : - conjugaisons (99 modèles), - flexions nominales ou adjectivales (80 types), - flexions rares (tiers/tierce, oeil/yeux,...) - flexions avec alternatives (lunch/ lunches+ lunchs, solo/ solos+ soli,...) - flexions de déterminants. Chaque classe flexionnelle est décrite par une suite de terminaisons formelles et un numéro de code équivalent à cet ensemble de terminaisons. Ainsi, la classe de code A76 est équivalente à : A76 = (l,le,ux,les), flexion qui permet de calculer par programme toutes les formes de légal et des mots de la même classe. Actuellement les entrées de mots simples représentent plus de 90 000 graphies, toutes différentes. Une graphie sert d'entrée commune aux divers homographes existants. Par exemple, déjeuner a une seule entrée : déjeuner,"1.N1.V3 qui rassemble un verbe et un nom se distinguant chacun par leur propre code. Les entrées à plusieurs codes concernent environ dix pour cent du nombre total de graphies, de sorte que le DELAS contient plus de 100 000 mots de codes grammatical ou morphologique différents. Cahier du CIEL 1994-1995 92 DELAF est le dictionnaire électronique des formes simples fléchies du français. Chaque forme d'entrée est identifiée par la forme canonique et son code morphologique, et par des codes représentant : - genre et nombre pour les noms, adjectifs, mots grammaticaux de forme variable, - personne, genre, nombre pour les pronoms personnels, - mode, temps, personne, nombre pour les formes de verbes. Exemples : préceptrice,précepteur. N36(Hum):fs invitions,inviter. V3(t;11):IIM1p:SPR1p légaux,légal.A76:mp ils,.PRO(PpvIL):3mp Le dictionnaire DELAF est construit automatiquement à partir du DELAS, par un programme de génération de formes fléchies. La procédure consiste à utiliser le code morphologique de chaque mot pour retrouver la classe flexionnelle correspondante, à partir de laquelle il devient possible d'engendrer toutes les formes fléchies. Dans sa version la plus récente, le DELAF comporte de l'ordre de 750 000 formes simples fléchies, identifiées grammaticalement et par leur forme canonique. 2.2. DICTIONNAIRES DE MOTS COMPOSÉS DELAC est le dictionnaire électronique des mots composés et de leur morphologie. Les entrées sont donc des unités lexicales formellement composées. Elles sont accompagnées de codes précisant leurs variations de formes, ainsi que d'indications de traits sémantiques. Exemples : cousin/germain,un/N32/A32/ms;++;Hum NA pomme/de//terre,une/N21/fs;-+;Conc NDN actualités/télévisées,les/fp;-- NA B. COURTOIS - Dictionnaires Électroniques du LADL 93 L'ensemble du DELAC est subdivisé en sept classes, d'après les constituants caractéristiques de la composition : - NA : nom/adjectif, tel un cousin germain, - NDN : nom/de/nom, tel une pomme de terre, - NAN : nom/à/nom, tel un bateau à voile, - AN : adjectif/nom, tel un petit-fils, - NN : nom/nom, tel un homme-grenouille, - PN : préposition/nom, tel un sans-gêne, - VN : verbe/nom, tel un fume-cigare. Les mots composés de ces classes ont été collectés par différents linguistes travaillant en coopération avec le LADL, notamment Gaston Gross, Robert Vivès, Michel Mathieu- Colas, René Jung. Des adverbes composés, tels par hasard, de longue date, ont été aussi recensés par M. Gross et des conjonctions uploads/s3/ 3-courtois.pdf
Documents similaires










-
50
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 26, 2021
- Catégorie Creative Arts / Ar...
- Langue French
- Taille du fichier 0.1209MB