CONSULTATION SUR PLACE PRET PEB OUI NON NON enssib Ecole Nationale Sup6rieure d

CONSULTATION SUR PLACE PRET PEB OUI NON NON enssib Ecole Nationale Sup6rieure des Seiences de Plnformation et des Biblioth&ques Memoire de DEA Sciences de 1'Information et de la Communication Option 3 : Systemes d'information documentaire Les descripteurs complexes en indexation automatique arabe : Etude des structures annectives extraites d'un corpus economique Mabrouka EL HACHANI Directeurs de m6moire: Mohamed HASSOUN et Joseph DICHY BIBLIOTHEQUE DE L ENSSIB 802990C mai 1998 Universite Lumiere Ecole Nationale Superieure Universite Jean Moulin Lyon2 des Sciences de Vlnformation Lyon3 et des Bibliotheques enssib Ecole Nationale Sup6rieure des Sciences de Vlnformation et des Bibliothfcques Memoire de DEA Sciences de Vlnformation et de la Communication Option 3: Systemes d'mformation documentaire Les descripteurs complexes en indexation automatique arabe : Etude des structures annectives extraites d'un corpus economique Mabrouka EL HACHANI Directeurs de m6moire: Mohamed HASSOUN et Joseph DICHY mai 1998 Universite Lumiere Lyon2 Ecole Nationale Superieure des Sciences de Vlnformation et des Bibliotheques Universite Jean Moulin Lyon3 j i r ; , ' L / i A mafamille REMERCIEMENTS Je remercie M. Mohamed HASSOUN pour ses precieux conseils et pour le suivi de ce travail. Fexprime mes remerciements a M. Joseph DICHY pour la qualite pedagogique de sa direction. Je remercie egalement Carole pour son aide et pour le temoignage de son amitie. Je remiercie toutes les personnes qui ont porte un interet sincere a ce travail et pour leurs encouragements. LES DESCRIPTEURS COMPLEXES ENINDEXATION AUTOMATIQUE ARABE : ETUDE DES STRUCTURES ANNECTIVES EXTRAITES D'UN CORPUS ECON OMIQUE Mabrouka EL HACHANI Sous la direction de Messieurs M, HASSOUN J. DICHY ENSSDB Universite Lumiere Lyon2 Resume: De nombreux systemes d'information documentaire sont bases sur des logiciels d'indexation qui comportent pour beaucoup d'entre eux des modules linguistiques. II ne s'agit pas de proceder a une analyse linguistique d'une part et a une typologie des problemes d'indexation d'autre part. Le but de notre etude est de reperer le fonctionnement syntactico-semantique d'une certaine categorie de descripteurs complexes en arabe qui sont representes par 1'annexion. L'etude de leur structuration permet d'apprecier leur portee semantique, point essentiel en indexation. Descripteurs en fran^ais : Documentation automatique ; TALN ; indexation automatique ; langue arabe; descripteur complexe ; annexion Abstract: A majority of information retrieval systems are based on indexing software including linguistic tools. This study is not a linguistic analysis on the one hand and on the another hand a list of indexing problems. Our aim is to show the syntaxic and semantic fonction of some complex descripteurs in arabic represented by annexation.. English key words : Automatic documentation; natural language automatic process; automatic indexing ; arabic language ; complex descriptor; annexation Table des matieres INTRODUCTION ......1 PREMIERE PARTIE. 5 I-Les m6thodes d'indexation automatique 6 A-La methode statistique 7 B-L'approche linguistique 9 C-La methode mixte 10 D-La methode par assignation 11 E-Les autres methodes 12 1 -Les systemes experts 12 2-L'indexation automatique des titres 13 II-L'approche linguistique de 1'indexation automatique 13 A- Les differentes composantes de l'analyse linguistique 14 1-L'analyse morphologique 15 2-L'analyse syntaxique 16 3-L'analyse semantique ou lexicale. 21 4-L'analyse pragmatique 22 B- La representation informatique des modules linguistiques dans un logiciel documentaire 22 C- Le role de 1' approche linguistique en indexation 23 III-L'importance du syntagme nominal dans les m6thodes de 1'indexation automatique 24 A- Le syntagme nominal et le Systeme d'Information Documentaire 24 1-Le modele SYDO 25 2-L'equipe SAMIA 28 B-L'interet du syntagme nominal complexe en indexation automatique. 32 DEUXIEME PARTIE. 39 l-La difinition de 1'annexion dans la tradition linguistique arabe 40 a) L'annexion dite "pure" 42 b) L'annexion formative ou qualificative 44 H-L.es diff6rentes structures annectives.dans la tradition grammaticale arabe .............45 A-L'annexion nominale 45 1- Les differentes categories semantiques 45 - La possession / L'appartenance "J" 46 - La forme / la matiere ' V 48 - La contenance "<)" 49 - L'Annexion de "reformulation specificative" 49 - Le specificatif. 50 - L'elatif. 51 B- L^annexion a un modificateur 54 1 -L'annexion a numeral 54 2-Le lexique des modificateurs et quantificateurs 56 3-Le lexique des prepositions 71 C- L'annexion a un terme issu d'un deverbal 76 1- Le participe actif. ........76 2- Le participe passif. 78 3- Le nom de proces 79 III-D'autres structures annectives 81 1- L'annexion a une phrase 81 2- L'ellipse de l'un des termes de 1'annexion 83 3- La composition nominale en arabe 85 IV-Un mod&le de structures annectives 87 1- Regles d'ecriture de grammaire du syntagme nominal annexionnel 87 2-L'essai d'une grammaire pour le traitement morphosyntaxique du syntagme nominal armexionnel 89 1 -L'annexion nominale 89 2-L'annexion a un modificateur 92 3-L'annexion a un terme issu d'un deverbal 93 3- L' essai d'une grammaire integrant le traitement semantique du syntagme nominal annexionnel 93 1-L' annexion nominale 94 2-L' annexion a modificateur 96 3-L' annexion a terme issu d'un deverbal 97 TROISIEME PARTIE. gg 1-L'extraction des descripteurs complexes. 99 A-Le choix du corpus 100 B-Une typologie des descripteurs extraits du corpus 100 1-Les descripteurs avec une structure annective a base nominale 101 2-Les descripteurs compose d'un quantificateur 104 3-Les descripteurs avec une structure annective a base deverbale 106 H-Le traitement du corpus & partir du moddle des structures annectives 110 A-Le modele de traitement des structures annectives 110 B-Le traitement des descripteurs complexes selon le modele des stractures annectives 114 lll-L'6laboration d'un lexique des m6ta-descripteurs 135 A-Les meta-descripteurs ayant une base nominale 136 B-Les meta-descripteurs incluant un modificateur. 138 C-Les meta-descripteurs ayant une base verbale 140 CONCL USION. 14+ BIBLIOGRAPHIE .. ANNEXES. 15% INTRODUCTION 1 INTRODUCTION Le developpement des banques de donnees textuelles" (...) est directement lie a l 'essor de l 'edition electronique et a la disponibilite des documents ecrits sur supports electroniques lisibles par ordinateur"1. Ainsi deux types d'information circulent parallelement: 1- L'information referentielle representee par des donnees bibliographiques normalisee que Deweze appelle "referotheque". Pour ce type de donnees 1'indexation se fait en general manuellement et avec un vocabulaire libre ou controle. L'acces a cette information se fait de fayon indirect pour 1'usager car il doit trouver la reference de son information avant de la trouver reellement. L 'interrogation pour ce type de donnees se fait par des fonctions booleennes dans des langages varies et specifiques. Cette indexation privilegie un nombre limite d'aspects du document et ne permetpas une interrogation precise et exhaustive2. 2- Le texte integral est 1'ensemble des donnees textuelles informatives represente sous format numerique. Ce ne sont plus des donnees referentielles, 1'acces a 1'information est ici direct. L'indexation de ces donnees textuelles se fait de fagon semi-automatique par diverses methodes qui peuvent etre combinees entre elles ou non, nous verrons ceci plus loin. La difference entre une recherche dans une base textuelle et une base bibliographique vient evidemment de leur constitution. La recherche dans une base textuelle peut se faire en langage libre sur les mots du texte alors que " (...) les bases de donnees bibliographiques preconisent la recherche d'information a partir de references bibliographiques (...) "3. L'emploi de la langue naturelle permet a 1'usager de ne pas avoir a utiliser un langage formel precis pour la consultation de ces bases de donnees. 1 Hanna E. NEET, A la recherche du mot cle, analyse documentaire et indexation alphahetique, Genfcve : Les Editions IES (Institut Etudes Sociales), Collection Les cours de l'IES n°2,, 1989, p. 169 2 Sofiane CISSE, Le genie linguistique: une realite, Processeurs, 15 mai 1992, p. 29 3 Hanna E. NEET, op. cit. p. 169 2 En ce sens, le developpement des bases de donnees textuelles a donne la priorite au developpement de logiciels d'indexation automatique. "to programmes d'indexation utilises dans le domaine de la documentation automatique cherchent a retrouver dans un texte les elements de sens caractiristiques en general des termes techniques specifiques (ils sont le plus souvent non ambigii). L 'indexation de ces termes fournit une liste qui peut etre consideree comnie une representation du texte bien plus petite, mais suffisament riche pour donner une bonne idee du contenu semantique du texte. L 'index des textes est a son tour consulte par Vordinateur lorsqu 'un utilisateur recherche les textes associes a un contenu semantique determine, ces contenus etant defini comme un sous-ensemble des termes techniques"4 La conception de bases de donnees textuelle exige la description du contenu des textes figurant dans cette base. Dans les systemes classiques, cette description se fait a Paide d'une liste de mots cles elabores a partir d'une langue structuree a priori. Ces mots cles serxdront lors de la recherche par une consultation de la base. Cette consultation se fait par le biais de requetes composees de descripteurs qui seront compares par le systeme aux mots cles du lexique (fichier inverse) qui decrivent les contenus des documents. L indexation est la partie la plus importante de 1'analyse documentaire. Cest en effet elle qui conditionne la valeur d'un systeme documentaire, une mauvaise indexation ou une indexation insuffisante represente 90% des causes essentielles de l'apparition de bruit ou de silence lors de la recherche [CHAUMIER, 90]. Le documentaliste traite avant tout de la semantique. II est clair que Vobjectif primordial de 1'indexation est de faciliter la recherche de uploads/s1/ descripteurs-complexes-en-indexation-automatique-arabe-etude-des-structures-annectives-extraites-d-un-corpus-economique.pdf

  • 32
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 24, 2022
  • Catégorie Administration
  • Langue French
  • Taille du fichier 5.1169MB