Université de Tizi-Ouzou * LE CORPUS * OUTILS INFORMATIQUES EN RECHERCHE TERMIN

Université de Tizi-Ouzou * LE CORPUS * OUTILS INFORMATIQUES EN RECHERCHE TERMINOGRAPHIQUE AHMED AZOUR Le corpus Définition 1.Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire en vue de leur étude linguistique. http://www.cnrtl.fr/definition/corpus 2. Ensemble des sources orales et écrites relatives au domaine étudié et qui sont utilisées dans un travail terminologique. (grand dictionnaire terminologique). Méthodologie de recherche terminologique thématique : Étapes 1- Collecte de la documentation: Mise en forme d’un corpus en format éléctronique, normalisation et conversion, si nécessaire (Marie-Claude l’Homme, 2004). Il s’agit de choisir les documents qui serviront au dépouillement terminologique et mettre ainsi en place un corpus de base. Il faut donc bien cibler le domaine. 2- Dépouillement terminologique/ Extraction de candidats-termes et autres unités terminologiquement pertinentes au moyen de logiciels d’extraction. Cela peut se faire manuellement ou à l’aide d’un logiciel de dépouillement. 3- Collecte de données sur les termes: Recherche et extraction de contextes contenant de l’information utile au moyen de concordanciers (ibidem et passim). Selon Auger (Méthodologie de la recherche terminologique1978 : 32), il faut recueillir toutes les données nécessaires au traitement de la nomenclature, soit : la catégorie lexicale et grammaticale, le domaine, une definition, une définition, des contextes (terminologiques, langagiers ou métalinguistiques) et des illustrations, le cas échéant. . 4- Analyse et synthèse des données recueillies. Opération de validation des données recueillies pour l’étude. Cela permettra au terminographe de se doter d’une terminologie bilingue. 5. Découpage et selection des contextes : Le terminologue découper les contextes des termes choisis. Une unite terminologique sera mieux comprise grâce à un environnement contextual. Généralement, le terminologue va faire le tri entre les différents contextes et sélectionne les plus pertinents. 6- Encodage des données sur un support: Encodage des données sur support électronique (logiciels de terminologie et autres supports). Organisation des données terminologiques. (encodage : Transcription d'un message dans une forme communicable). Comment procéder? Étapes 1. Mise en forme du corpus: Le terminographe rassemble les textes en format électronique exploitable par les logiciels. A des fins de traduction, le terminographe réunit les textes sous forme de corpus alignés bilingues. 2. Repérage des termes: Une tâche confiée à un extracteur de termes 3. Collecte de données: Utilisation d’un concordancier qui retrouve les occurrences du terme et extrait les contextes dans lesquels il apparait. 4. Encodage des données terminologiques: Utilisation des bases et des logiciels terminologiques pour l’organisation des terminologies extraites et analysées. (Marie- Claude l’Homme, 2004). 5. Organisation des données terminologiques: Pour la diffusion de l’information. 6. Gestion des données terminologiques: Correction, mise à jour, enrichissement, etc. Travail du terminographe Description des termes à des fins de publication dans un dictionnaire spécialisé ou une banque de terminologie. Sa tâche principale est de réunir les textes, de sélectionner les termes, de recueillir des renseignements sur ces termes et des les analyser pour les décrire. Fréquence et terminologie En plus du domaine qui est un élément fondamental, la fréquence des termes dans un textes aident beaucoup le terminographe dans sa démarche de repérage des candidats-termes. Recherche des textes en format électronique Documents d’entreprises; Sites des organismes publics; Rapports internes; Manuels Note: toujours vérifier la fiabilité de la source. Quelques outils terminologiques wibitext Logiciel pour repérer la terminologie bilingue dans des sites spécialisés avec choix du domaine. (Accès libre en ligne); On peut afficher les deux pages web (ang-fr) ŝur une seule page. Bien que gratuit et accessible à tous pour l'instant, le site Web de WeBiText deviendra éventuellement payant.  http://www.tsrali.com/Main.aspx?cc=true (TransSearch) (version d’essai gratuite de 5 jours). À vérifier. Extraction terminologique à partir de corpus bilingues Exemple de méthodologie (étapes) 1. Élaboration des corpus: constitution d’une base de documents. Exp: Retenir 5 textes en français avec 5 textes en anglais et deux textes de référence. 2. Outils utilisés pour l’extraction et l’analyse Exemple: Concordanciers 3. Traitement des corpus: listes des fréquences, concordances et tris conceptuels. 4. Phase d’extraction et d’analyse des termes (mots clés). 5. Élaboration d’un glossaire bilingue (anglais- français pour notre cours). 6. Analyse des résultats. Par exemple Est-ce que tous les termes alignés ont eu un équivalent dans le corpus sélectionné? Le pourcentage, procédure suivie pour chercher des équivalents aux canddats termes dans d’autres sources, etc. uploads/Philosophie/ cours-5-du-11-nov-2018.pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager