Texte et Corpus, n°3 / août 2008 163 MISE AU POINT D'UNE BASE DE DONNÉES LEXICA

Texte et Corpus, n°3 / août 2008 163 MISE AU POINT D'UNE BASE DE DONNÉES LEXICALE MULTIFONCTIONNELLE : LE DICTIONNAIRE UNILINGUE WOLOF ET BILINGUE WOLOF-FRANÇAIS* Mame Thierno Cissé, Anna Marie Diagne Université Cheikh Anta Diop (Dakar, Sénégal) Marc van Campenhoudt, Paul Muraille Centre de Recherche Termisti (ISTI, Bruxelles, Belgique) 1 INTRODUCTION Étalé sur une période de deux ans (2007-2009), le projet de mise au point d'une base de données lexicale multifonctionnelle est un projet mené par l'Université Cheikh Anta Diop de Dakar (UCAD) au Sénégal en collaboration avec le centre de recherche en linguistique appliquée Termisti de la Haute École de Bruxelles (Belgique) et avec le soutien de l'Agence Universitaire de la Francophonie (AUF). Ce projet, aujourd'hui à mi-parcours, a pour objectif principal de constituer une base de données lexicale multifonctionnelle pour la langue wolof, en d'autres termes, de collecter, numériser et standardiser un matériel lexical qui pourra être exploité à une double fin : d'une part, fournir aux chercheurs et aux spécialistes du wolof un corpus lexical réexploitable à des fins d'enrichissement du matériel constitué dans le cadre du projet, ou réutilisable pour des applications de l'ingénierie linguistique ; d'autre part, fournir le support d'un dictionnaire à destination des populations wolophones monolingues ou bilingues. Structuration et format des données ont été pensés en premier lieu pour que le produit final puisse servir au double usage de corpus lexical et de dictionnaire (tantôt à l'usage exclusif de l'une ou l'autre de ces fonctions, tantôt à l'usage conjoint des deux fonctions) et, en second lieu, pour offrir in fine la possibilité d'une exploitation des données sur différents supports (site web, cédérom, publication imprimée, etc.). La décision de proposer un dictionnaire wolof sous format électronique et intégrant une dimension bilingue découle du constat que les dictionnaires, monolingues ou bilingues, pour cette langue sont non seulement peu nombreux, mais aussi et surtout que l'accès à ces trésors par la population wolophone est handicapé par divers obstacles en termes de publics visés, de coût et de disponibilité. En raison de son format électronique, ce dictionnaire, pourra être librement étendu, exploitable sur divers médias et réutilisé par la suite par d'autres équipes. Quant à la dimension bilingue du projet, elle se manifeste au travers de l'association, pour chaque entrée lexicale wolof, d'une proposition d'équivalente * Pour faire référence à cet article : van Campenhoudt Marc, Diagne Anna Marie, Muraille Paul & Thierno Cissé Mame, « Mise au point d'une base de données lexicale multifonctionnelle : le dictionnaire unilingue wolof et bilingue wolof-français », revue électronique Texte et corpus, n°3 / août 2008, Actes des Journées de la linguistique de Corpus 2007, p. 163-170 (disponible sur http://web.univ- ubs.fr/corpus/jlc5/ACTES/ACTES_JLC07_thiernocisse_diagne_campenhoudt_muraille.pdf) Texte et Corpus, n°3 / août 2008 164 en langue française (accompagnée d'indications supplémentaires évoquées plus loin). De par sa durée et les ressources mises en oeuvre, le projet ne prétend pas à l'exhaustivité : il entend plutôt fournir un modèle conceptuel et un canevas technique simples, ouverts et facilement réutilisables pour la production de bases de données et de dictionnaires généraux ou spécialisés, tant en wolof que dans d'autres langues qui n'ont guère pu profiter jusqu'à présent des avancées de l'informatique. Remercions enfin Ndeye Fatou Thiaw, Elhadj Diéye, Dame Ndao et Noël Biagui, doctorants à l'UCAD, pour leur regard critique et leur contribution essentielle à toutes les étapes du projet depuis son lancement. 2 CONTEXTE DU PROJET Comme d'autres langues africaines, le wolof n'a guère bénéficié jusqu'à présent des avantages découlant des avancées de l'informatique depuis la fin des années 1990, en matière d'universalisation du traitement (Unicode) et d'échange (XML) des données textuelles. Or cette langue est non seulement la première langue vernaculaire du Sénégal (et une de celles de la Gambie et de la Mauritanie), mais est aussi une importante langue véhiculaire entre Sénégalais (du moins en termes de corpus par contraste avec le français qui occupe, lui, la première place en termes de status selon R. Chaudenson (1991)). Le français étant langue officielle et d'enseignement au Sénégal (à ce jour, il n'existe pas d'enseignement dans les langues nationales en dehors de classes d'expérimentation au niveau de l'enseignement élémentaire), son apprentissage effectif nécessite le développement d'outils didactiques qui prennent en considération le substrat linguistique des apprenants, et permettent « d'offrir une passerelle » vers les langues locales. Dans cette optique, le dictionnaire a été élaboré pour tenter de répondre aux besoins lexicographiques de la didactique du français à des wolophones dans l'éducation primaire. À ce niveau d'enseignement, les enseignants ont en effet besoin d'outils facilitant l'apprentissage de l'orthographe et de la signification des mots en wolof (partie unilingue) d'une part, et d'outils facilitant l'apprentissage du français à partir de la langue maternelle des apprenants d'autre part (partie bilingue). Le dictionnaire intègre ainsi les mots les plus fréquents du wolof tels que recensés dans Diouf, Calvet et Dia (1971). Il a également pour vocation de faciliter les échanges interculturels du fait qu'il peut être intégré dans une stratégie de didactique du wolof à des francophones. La disponibilité des données lexicologiques sous forme électronique, en conformité avec les standards Unicode et XML, est une condition indispensable non seulement pour leur exploitation à long terme par les chercheurs au Sénégal et ailleurs, mais aussi pour leur réutilisation et leur intégration dans des applications d'ingénierie linguistique telles qu'un vérificateur orthographique. La forme de stockage des données et leur mode de diffusion pallient, en outre, les inconvénients du support papier en termes de coût, de disponibilité et de diffusion. Texte et Corpus, n°3 / août 2008 165 3 CONCEPTION DE LA BASE DE DONNÉES LEXICALE 3.2 Outils mis en œuvre Le principal outil mis en oeuvre pour les besoins du projet est l'outil de base de données Toolbox (version 1.5) de SIL International1. Ce gratuiciel, utilisé pour la création et l'entretien de la base de données lexicales, et dont une version francisée est en cours d'élaboration dans le cadre d’une collaboration entre SIL International, le LLACAN et le Centre de recherche Termisti, partenaire de l’action de recherche, a été retenu, entre autres, pour sa capacité éprouvée à gérer l’Unicode et pour ses possibilités d’exportation au format XML. D'autres outils sont mis à contribution en amont ou en aval, selon les besoins spécifiques des étapes du projet. En amont, par exemple, la collecte de données lexicales pour la base a été exécutée à partir de textes en wolof numérisés et de l'exploitation subséquente du corpus obtenu à l'aide du concordancier WordSmith2. En aval, vu qu'il est prévu que des données audio complètent le dispositif et que, à terme, un fichier son au format .mp3 soit éventuellement associé à chaque entrée et à chaque phrase d'illustration en wolof et mis à disposition sur le Web, le logiciel Praat3 sera mis à contribution, entre autres, pour la segmentation des fichiers audio enregistrés au format .wav et la production des fichiers mp3. 3.2 Constitution d'un corpus textuel restreint Les moyens et la durée du projet étant limités, une première tâche a été de disposer d'un corpus numérisé du wolof contemporain, de taille certes réduite, mais couvrant autant que possible plusieurs domaines fonctionnels. La littérature générale ou spécialisée en langue wolof est, en effet, peu abondante, et le nombre de documents accessibles sous forme numérique encore plus réduit. La majorité des 35 textes dont est constitué le corpus exploité jusqu’ici est donc issue du secteur de l'alphabétisation fonctionnelle (éducation à la santé, à la citoyenneté, etc.), auxquels s'ajoutent des échantillons de la littérature romanesque ou poétique (contes, nouvelles, essais) ainsi que des interviews et la transcription de discours politiques. Les textes collectés qui n'étaient pas encore numérisés l'ont été de manière à disposer d'une base de données textuelle limitée, mais susceptible de fournir des attestations en contexte des entrées lexicales. Chaque texte a fait l’objet d’une description bibliographique complète de manière à pouvoir disposer d’un en-tête conforme à la TEI (Text Encoding Initiative). Le traitement des 35 textes à l'aide de WordSmith permet de disposer de statistiques en termes de fréquences (dont les hapax), texte par texte et tous textes confondus, de sorte qu'il nous est possible d'identifier le(s) texte(s) spécifique(s) associés à un contexte d'attestation dans la base de données lexicales. Toutefois, du fait des limites évoquées plus haut, le corpus constitué ne compte que 1 Le logiciel Toolbox de SIL International peut être téléchargé librement à l'adresse suivante http://www.sil.org/computing/toolbox/. 2 WordSmith Tools, logiciel conçu par Mike Scott de l’Université de Liverpool, est commercialisé par Oxford University Press. 3 Praat est un gratuiciel conçu par Paul Boersma et David Weenink de l'Institut des sciences de la phonétique de l'Université d'Amsterdam, téléchargeable à l'adresse http://www.fon.hum.uva.nl/praat/ Texte et Corpus, n°3 / août 2008 166 quelque 115 000 formes (tokens). L'indexation du corpus à l’aide de WordSmith a permis d’isoler quelque 14 700 formes uniques. Comme il n'existe pas, à notre connaissance, de lemmatiseur pour la langue wolof, ces 14 700 formes ont été importées dans la base de données Toolbox où l'opération de réduction lemmatique est opérée manuellement, à mesure que les transcripteurs dépouillent les formes importées uploads/Ingenierie_Lourd/ base-de-donnees-bilingue-wolof-francais.pdf

  • 9
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager