Université de Tizi-Ouzou * LE CORPUS * OUTILS INFORMATIQUES EN RECHERCHE TERMIN
Université de Tizi-Ouzou * LE CORPUS * OUTILS INFORMATIQUES EN RECHERCHE TERMINOGRAPHIQUE AHMED AZOUR Le corpus Définition 1.Ensemble de textes établi selon un principe de documentation exhaustive, un critère thématique ou exemplaire en vue de leur étude linguistique. http://www.cnrtl.fr/definition/corpus 2. Ensemble des sources orales et écrites relatives au domaine étudié et qui sont utilisées dans un travail terminologique. (grand dictionnaire terminologique). Méthodologie de recherche terminologique thématique : Étapes 1- Collecte de la documentation: Mise en forme d’un corpus en format éléctronique, normalisation et conversion, si nécessaire (Marie-Claude l’Homme, 2004). Il s’agit de choisir les documents qui serviront au dépouillement terminologique et mettre ainsi en place un corpus de base. Il faut donc bien cibler le domaine. 2- Dépouillement terminologique/ Extraction de candidats-termes et autres unités terminologiquement pertinentes au moyen de logiciels d’extraction. Cela peut se faire manuellement ou à l’aide d’un logiciel de dépouillement. 3- Collecte de données sur les termes: Recherche et extraction de contextes contenant de l’information utile au moyen de concordanciers (ibidem et passim). Selon Auger (Méthodologie de la recherche terminologique1978 : 32), il faut recueillir toutes les données nécessaires au traitement de la nomenclature, soit : la catégorie lexicale et grammaticale, le domaine, une definition, une définition, des contextes (terminologiques, langagiers ou métalinguistiques) et des illustrations, le cas échéant. . 4- Analyse et synthèse des données recueillies. Opération de validation des données recueillies pour l’étude. Cela permettra au terminographe de se doter d’une terminologie bilingue. 5. Découpage et selection des contextes : Le terminologue découper les contextes des termes choisis. Une unite terminologique sera mieux comprise grâce à un environnement contextual. Généralement, le terminologue va faire le tri entre les différents contextes et sélectionne les plus pertinents. 6- Encodage des données sur un support: Encodage des données sur support électronique (logiciels de terminologie et autres supports). Organisation des données terminologiques. (encodage : Transcription d'un message dans une forme communicable). Comment procéder? Étapes 1. Mise en forme du corpus: Le terminographe rassemble les textes en format électronique exploitable par les logiciels. A des fins de traduction, le terminographe réunit les textes sous forme de corpus alignés bilingues. 2. Repérage des termes: Une tâche confiée à un extracteur de termes 3. Collecte de données: Utilisation d’un concordancier qui retrouve les occurrences du terme et extrait les contextes dans lesquels il apparait. 4. Encodage des données terminologiques: Utilisation des bases et des logiciels terminologiques pour l’organisation des terminologies extraites et analysées. (Marie- Claude l’Homme, 2004). 5. Organisation des données terminologiques: Pour la diffusion de l’information. 6. Gestion des données terminologiques: Correction, mise à jour, enrichissement, etc. Travail du terminographe Description des termes à des fins de publication dans un dictionnaire spécialisé ou une banque de terminologie. Sa tâche principale est de réunir les textes, de sélectionner les termes, de recueillir des renseignements sur ces termes et des les analyser pour les décrire. Fréquence et terminologie En plus du domaine qui est un élément fondamental, la fréquence des termes dans un textes aident beaucoup le terminographe dans sa démarche de repérage des candidats-termes. Recherche des textes en format électronique Documents d’entreprises; Sites des organismes publics; Rapports internes; Manuels Note: toujours vérifier la fiabilité de la source. Quelques outils terminologiques wibitext Logiciel pour repérer la terminologie bilingue dans des sites spécialisés avec choix du domaine. (Accès libre en ligne); On peut afficher les deux pages web (ang-fr) ŝur une seule page. Bien que gratuit et accessible à tous pour l'instant, le site Web de WeBiText deviendra éventuellement payant. http://www.tsrali.com/Main.aspx?cc=true (TransSearch) (version d’essai gratuite de 5 jours). À vérifier. Extraction terminologique à partir de corpus bilingues Exemple de méthodologie (étapes) 1. Élaboration des corpus: constitution d’une base de documents. Exp: Retenir 5 textes en français avec 5 textes en anglais et deux textes de référence. 2. Outils utilisés pour l’extraction et l’analyse Exemple: Concordanciers 3. Traitement des corpus: listes des fréquences, concordances et tris conceptuels. 4. Phase d’extraction et d’analyse des termes (mots clés). 5. Élaboration d’un glossaire bilingue (anglais- français pour notre cours). 6. Analyse des résultats. Par exemple Est-ce que tous les termes alignés ont eu un équivalent dans le corpus sélectionné? Le pourcentage, procédure suivie pour chercher des équivalents aux canddats termes dans d’autres sources, etc. uploads/Philosophie/ cours-5-du-11-nov-2018.pdf
Documents similaires










-
27
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 30, 2021
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 0.3817MB