Université de tizi- Ouzou Outils informatiques en recherche terminographique Ah

Université de tizi- Ouzou Outils informatiques en recherche terminographique Ahmed Azour Extraction terminologique Définition : L'extraction de la terminologie est le processus d'extraction des termes spécialisés d'un texte. Cette opération nous aide à alimenter une base de données, à élaborer des fiches terminologiques. La plupart des programmes d’extraction de données terminologiques sont conçus pour retrouver les termes. Ces programmes appelés extracteurs de termes ratissent un corpus et sont censés proposer à un utilisateur les termes qui s’y trouvent. Objectifs des extracteurs des termes L’objectif visé par un extracteur de termes est de trouver dans un texte ou un ensemble de textes les mots graphiques ou les suites de mots graphiques susceptibles d’être des termes. (Marie-Claude l’homme). Après avoir traité le texte, l’extracteur doit produire une liste contenant les termes apparaissant dans le texte. les extracteurs ramènent des candidats-termes, à savoir des mots ou des suites de mots qui sont susceptibles d’être des unités terminologiques. Les candidats-termes sont placés dans une liste que devra écrémer le terminographe Quelques indices de validation des termes Fréquence dans le texte : La fréquence et la répartition d’une unité dans un ensemble de textes représentatifs constituent de bons indices de son statut terminologique. Un terme significatif sera normalement utilisé à plusieurs reprises dans un texte spécialisé. La prédominance de termes de nature nominale: Un très grand nombre d’extracteurs de termes sont conçus pour rechercher des noms uniquement. Quelques étapes  1- Collecte de la documentation: Mise en forme d’un corpus en format éléctronique, normalisation et conversion, si nécessaire (Marie-Claude l’Homme, 2004).  2- Extraction de candidats-termes et autres unités terminologiquement pertinentes au moyen de logiciels d’extraction.  3- Collecte de données sur les termes: Recherche et extraction de contextes contenant de l’information utile au moyen de concordanciers (ibidem et passim).  4- Analyse et synthèse des données recueillies.  5- Encodage des données sur un support: Encodage des données sur support électronique (logiciels de terminologie et autres supports). Organisation des données terminologiques. Comment procéder? 1. Mise en forme du corpus: Le terminographe rassemble les textes en format électronique exploitable par les logiciels. A des fins de traduction, le terminographe réunit les textes sous forme de corpus alignés bilingues. 2. Repérage des termes: Une tâche confiée à un extracteur de termes. (exercice d’application vu en classe MultiTrans). 3. Collecte de données: Utilisation d’un concordancier qui retrouve les occurrences du terme et extrait les contextes dans lesquels il apparait. Définition de concordancier : Logiciel qui repère les cooccurrents typiques des termes dans les textes dépouillés lors d'une recherche thématique. Source : Termium Software that counts and lists the occurrences of a given term, together with its co-occurrents, in the text corpus compiled for vocabulary research. 4. Encodage des données terminologiques: Utilisation des bases et des logiciels terminologiques pour l’organisation des terminologies extraites et analysées. (Marie-Claude l’Homme, 2004). 5. Organisation des données terminologiques: Pour la diffusion de l’information. 6. Gestion des données terminologiques: Correction, mise à jour, enrichissement, etc. Travail du terminographe Description des termes à des fins de publication dans un dictionnaire spécialisé ou une banque de terminologie. Sa tâche principale est de réunir les textes, de sélectionner les termes, de recueillir des renseignements sur ces termes et des les analyser pour les décrire. Fréquence et terminologie En plus du domaine qui est un élément fondamental, la fréquence des termes dans un textes aident beaucoup le terminographe dans sa démarche de repérage des candidats-termes. Recherche des textes en format électronique Documents d’entreprises; Sites des organismes publics; Rapports internes; Manuels Note: toujours vérifier la fiabilité de la source. Quelques outils terminologiques Logiciel pour repérer la terminologie bilingue dans des sites spécialisés avec choix du domaine. (Accès libre en ligne); On peut afficher les deux pages web (ang-fr) ŝur une seule page. Bien que gratuit et accessible à tous pour l'instant, le site Web de WeBiText deviendra éventuellement payant.  Extraction terminologique à partir de corpus bilingues Exemple de méthodologie (étapes) 1. Élaboration des corpus: constitution d’une base de documents. Exp: Retenir 5 textes en français avec 5 textes en anglais et deux textes de référence. 2. Outils utilisés pour l’extraction et l’analyse Exemple: Concordanciers 3. Traitement des corpus: listes des fréquences, concordances et tris conceptuels. 4. Phase d’extraction et d’analyse des termes (mots clés). 5. Élaboration d’un glossaire bilingue (anglais-français pour notre cours). 6. Analyse des résultats. Par exemple Est-ce que tous les termes alignés ont eu un équivalent dans le corpus sélectionné? Le pourcentage, procédure suivie pour chercher des équivalents aux canddats termes dans d’autres sources, etc. uploads/Philosophie/ cours-7-du-25-novembre-2018-ummto.pdf

  • 31
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager