LINGUISTIQUE DE CORPUS ET TERMINOLOGIE Anne Condamines Armand Colin | « Langage
LINGUISTIQUE DE CORPUS ET TERMINOLOGIE Anne Condamines Armand Colin | « Langages » 2005/1 n° 157 | pages 36 à 47 ISSN 0458-726X ISBN 9782035770790 Article disponible en ligne à l'adresse : -------------------------------------------------------------------------------------------------------------------- https://www.cairn.info/revue-langages-2005-1-page-36.htm -------------------------------------------------------------------------------------------------------------------- Distribution électronique Cairn.info pour Armand Colin. © Armand Colin. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit. Powered by TCPDF (www.tcpdf.org) Document téléchargé depuis www.cairn.info - - - 196.75.114.174 - 15/11/2019 11:14 - © Armand Colin Document téléchargé depuis www.cairn.info - - - 196.75.114.174 - 15/11/2019 11:14 - © Armand Colin 36 Anne Condamines CNRS, Équipe de Recherche en Syntaxe et Sémantique, Toulouse Linguistique de corpus et terminologie 1. INTRODUCTION La terminologie n’a pas toujours fait très bon ménage avec les textes. La tradition wüstérienne1 a même mis en garde contre l’utilisation de productions réelles pour constituer des terminologies. Ce n’est que récemment, sous la pression de différents paramètres, que la constitution de terminologie à partir de textes a pris un essor considérable. Une des conséquences de cette évolution est que la terminologie en tant que discipline scientifique s’est rapprochée de la linguistique. En effet, la linguistique elle-même se trouve à un tournant majeur de son histoireþ: les corpus sont maintenant facilement disponibles (même s’il convient de s’interroger sur cette facilité d’accès, notamment sur l’internet) et des outils pour les interroger sont égale- ment accessibles. La prise en compte des corpus vient ainsi interroger la linguistique dans de nombreux domainesþ: morphologie, syntaxe, discours, sémantique… La terminologie textuelle a ainsi émergé au moment même où la linguistique de corpus se développait, en particulier la sémantique de corpus. L’objectif de cet article est de montrer que cette évolution conjointe conduit certainement à des interrogations croisées qui alimentent la réflexion de chacune des disciplines. La terminologie textuelle pourrait ainsi contribuer à éclairer beaucoup de questionnements qui sous- tendent la sémantique de corpus, questionnements qui ne peuvent réellement être compris que si l’on prend en compte l’objectif, théorique et/ou appliqué, des analyses. 2. ÞLINGUISTIQUES DE CORPUS Le pluriel du titre de ce paragraphe2 signale combien ce terme «þlinguistique de corpusþ» peut recouvrir de diversité. Pendant plusieurs années, il a surtout été utilisé par la communauté TAL (Traitement automatique des langues) et il est 1. Wüster, ingénieur viennois, a publié dans les années 1930 un «þdictionnaire de la machine outilþ». Il est considéré comme le père de la théorie terminologique (en tout cas dans sa version normalisatrice). 2. D’ailleurs emprunté au titre d’un ouvrage de B.þHabert etþal. (Habert etþal., 1997). Document téléchargé depuis www.cairn.info - - - 196.75.114.174 - 15/11/2019 11:14 - © Armand Colin Document téléchargé depuis www.cairn.info - - - 196.75.114.174 - 15/11/2019 11:14 - © Armand Colin 37 Langages 157 Linguistique de corpus et terminologie probable que cette communauté, en proposant des outils et en ouvrant des portes sur des besoins «þsociétauxþ», a offert de nouvelles perspectives à une linguistique qui s’appuyait sur des méthodes et des objectifs plus classiques. Par ailleurs, une partie de la linguistique a une tradition d’analyse de corpus qui reste très vivace. Il convient de faire un état des lieux sur les travaux existants et sur leurs complémentarités. 2.1. Linguistique de corpus et informatique 2.1.1. Linguistique de corpus et TAL Si l’on compare avec les travaux menés il y a une vingtaine d’années, qui consis- taient à valider la cohérence d’une théorie élaborée sur des bases introspectives, les corpus sont désormais devenus le principal matériau du TAL. Dans cette perspec- tive, il s’agit majoritairement de traiter de grandes quantités de données textuelles sur support électroniqueþ; la linguistique de corpus est ainsi souvent considérée comme relevant majoritairement d’une perspective TALþ: «þOver the last three decades the compilation and analysis of corpora stored in compu- terized databases has led to a new scholarly enterprise known as corpusþlinguisticsþ» (Kennedy, 1998). Les objectifs de l’analyse de corpus peuvent être très différentsþ: acquisition de connaissances morphologiques, syntaxiques ou sémantiques pour améliorer les performances des outils (l’acquisition à partir de corpus vient alors suppléer ou compléter l’approche introspective), extraction d’informations (recherche d’informa- tions dont la nature est prédéfinieþ; il s’agit alors de «þremplirþ» des formulaires automatiquement), recherche d’information (retrouver les documents pertinents sur un sujet donné), système de question-réponse (il s’agit non seulement de trouver le document pertinent mais aussi de trouver la bonne réponse à une question donnée), traduction assistée par ordinateur (ce qui pose le problème spécifique de l’aligne- ment de corpus), veille scientifique, etc. L’un des axes qui suscitent le plus de travaux, particulièrement en France, est celui de la construction de terminologies à partir de corpusþ; ce thème donne lieu à des numéros de revues (par exemple, le numéroþ43-1 de la revue TAL, Hamon et Nazarenko, 2002) ou des colloques. Ce besoin en données terminologiques est apparu très nettement dans les entreprises qui doivent gérer une documentation considérable, en lien avec la création, le développement et la maintenance d’objets manufacturés3. La principale ressource qui alimente les outils de GED (Gestion élec- tronique de documents) est constituée par la terminologie propre au domaine couvert, voire à l’entreprise concernée. Cette thématique permet d’établir des ponts avec un autre champ de l’informatique, celui de l’ingénierie des connaissances. 2.1.2. Linguistique de corpus et ingénierie des connaissances L’objet majeur de l’ingénierie des connaissances concerne la constitution d’outils pouvant assister l’homme dans son raisonnement. Il s’agit d’élaborer des systèmes qui représentent la connaissance au plus près de la façon dont elle se manifeste, c’est- à-dire en utilisant les éléments langagiers propres au domaine couvert par l’outil. La 3. On considère par exemple que la documentation en volume papier d’un avion pourrait remplir l’avion lui-mêmeþ! Document téléchargé depuis www.cairn.info - - - 196.75.114.174 - 15/11/2019 11:14 - © Armand Colin Document téléchargé depuis www.cairn.info - - - 196.75.114.174 - 15/11/2019 11:14 - © Armand Colin 38 La terminologie : nature et enjeux plupart des systèmes mettent en œuvre une représentation de type relationnel qui s’inscrit dans une parenté revendiquée avec les réseaux sémantiques de Quillan4, le système le plus couramment utilisé étant certainement les graphes conceptuels de Sowa. Ces représentations relationnelles se présentent ainsi sous la forme de nœuds reliés par des arcs, les premiers étant généralement étiquetés par des noms et les seconds par des formes prédicatives (noms ou verbes). Ces modes de représenta- tions relationnelles sont appelées ontologies en ingénierie des connaissances. Deux courants majeurs existent sur la façon de constituer les ontologies. L’un envisage la possibilité de les créer par domaine, avec un fort pouvoir de réutilisation (en tout cas supposé tel), le plus souvent sur la base du recours à la connaissance des experts de ce domaine. Un autre courant, particulièrement bien représenté en France, tient pour nécessaire le recours à des usages réels dans l’entreprise concernée et considère que les ressources terminologiques doivent être construites pour un objectif déterminé (Bachimont, 2000). Ce débat rejoint une problématique de la terminologie. Il est évident que les ontologies sont très proches des réseaux terminologiques et cette parenté n’a pas échappé à beaucoup de chercheurs. Ainsi, dès le début des années 1990, des projets interdisciplinaires autour de la constitution de «þbases de connais- sances terminologiquesþ» ont vu le jour à peu près simultanément dans différentes parties du monde, par exemple au Canada (Meyer etþal., 1992), à l’Université de Surrey (Ahmad etþal., 1992) ou encore à Toulouse (Condamines etþal., 1993). Souvent considérée comme «þsymbiotiqueþ» (pour reprendre un terme proposé par Skuce et Meyer), la relation entre terminologie et ingénierie des connaissances a évolué pour permettre à présent à chaque discipline de se situer et d’examiner les apports de l’une à l’autre. Pour la terminologie, la réflexion s’est nettement orientée vers le mode de prise en compte des textes et vers la définition d’une terminologie textuelle. 2.1.3. Outils d’analyse de corpus pour la constitution de terminologies Soutenue par une demande sociétale forte, la définition d’outils d’aide à la consti- tution de terminologies à partir de textes est un des domaines les plus productifs du TAL. Ces outils visent à proposer des termes-candidats ou des relations-candidates. À charge pour l’utilisateur de sélectionner ceux de ces candidats qui lui semblent pertinents. Ces outils reposent sur deux grands principes qui révèlent deux façons de concevoir le fonctionnement de la langue. Dans le premier type d’outils, tout texte est considéré comme la mise en œuvre d’un système très stable. Ainsi, les termes sont considérés comme respectant des patrons récurrents (par exemple, Nadj de N). Quant aux relations, on considère que des marqueurs, identifiables par introspec- tion, les mettent en œuvre de manière régulière dans les textes, par exemple uploads/Philosophie/ lang-157-0036.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/IMkqbKS2SdCWaBZXqJDRfbiB4VuKwjIC3axDGRwv7D2K9tvniH6uCNC0189x65GYvfbmv4tHqpne13g8sjoiv1iA.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/j2lmJV8FJ32plYaxZz3860S28N159cegBPPb68ZWKL2PkUK6TK6vg6HdEAfe4f3D5NXQJGKlgKDXy0rDwwxe6dlH.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/nBts1fCzfcrm50y2jObt27Qa9aWaGrK17CFGUMsuYt1k1XYd7UAPtACENwJHRdxdaTdeDQpmOgIje46xg4qJbrcA.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/H9wUxWPVGqVLCclOeg5fLk1ccZpmwH9eX0YLW9PahdG5VIl8Cxzuiq4GZOab33VcaAYf6mfGlLhJu9M2bxMABiyK.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/bWy5JlJxup5UqvObSRvU3gshq9gjitEUs4lQT7vL7m9IIRh4pkBU4jYy235EQw7t9J0q98d2FURGa8qMSqjUTslI.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/QdYKTF0pKLfjavwPwGGKK6YeUC0QUYxYwxKoloygvuAgc7uqAkZwzjLm0Zw3VolUixpaNxxnGrTacD6ucSoENcdz.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/lHf5mYLQ4CNB1aMwj7NzCpqdBVOjCbVVXIKVgZcBzXlLZQMqCcRdZPbpbOud0BvnDzdu7AXH7SHRhIJmN0ueRLPf.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/sxffGI99g80aKFbKV1JbQm1priPlVtq6LpC2HQ9MIOgUTF6J3wOIN5KJyFJlg4QivUQavDxtj5dWB490sMXCH22h.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/2i0pQji0mdxzuhTN2uRnVlezubcPCWFKh4qMmjdd0iwsxqSxUOT8qluoJ9lMr5QHjht2IaSak5M1hVuMmHWNBQCw.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/A9l4z573yVyWCrG1jJvU3QXQFu0e3xE3wAdppYyTRhKUFuuFctC11Qm6sNnV9a0EMNzyBB9HJ6YfimWyJBaHyXnI.png)
-
25
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 08, 2022
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 0.3837MB