811 GESTION DU CORPUS DANS LA RECHERCHE TERMINOLOGIQUE Lector univ. dr. Mihaela

811 GESTION DU CORPUS DANS LA RECHERCHE TERMINOLOGIQUE Lector univ. dr. Mihaela POPESCU Universitatea „Transilvania”, Braşov Résumé L’article propose une description des corpus en tant que représentations de connaissances. Les caractéristiques, les types de corpus, les critères de sélection des textes d’un ensemble de textes sont les éléments censés clé à aboutir à une possible gestion du corpus en terminologie tout en partant de l’idée que la saisie des relations entre les concepts et les termes, ainsi que les relations morpho-syntaxiques et paradigmatiques conduit à une gestion efficace des textes du corpus dans la recherche terminologique dans une ou plusieurs langues. La représentation des connaissances sous la forme de liste de termes reliés par des relations est ancienne et courante. Nous vivons dans un environnement où les taxinomies utilisées dans les sciences naturelles au cours du XVII-ème et XVIII-ème siècles, ainsi que la classification universelle de Dewey (1876), les réseaux sémantiques de Quillian (1968) ou les ontologies de l’ingénierie des connaissances (Gruber, 1993) sont autant de modes de représentation qui mettent l’accent sur l’utilisation d’éléments lexicaux pour modeler la connaissance. Ces représentations sont soit employées dans des systèmes informatiques, soit constituent la base de langages de représentations (les graphes conceptuels), soit sont des logiques terminologiques. Les représentations sont fondées sur des systèmes relationnels. La structuration d’un réseau conceptuel à partir des termes relève d’une interprétation, d’une normalisation (Bachimont, 2000). Dans ces conditions, nous avons besoin des textes, réunis dans un corpus à partir desquels nous devons construire les ressources terminologiques ou ontologiques. Ce mode de représentation de la connaissance est important dans le cas des textes spécialisés, d’une part, et de profiter du potentiel de l’informatique, d’autre part. Il s’ensuit qu’il faut s’interroger sur les liens entre des discours et des éléments lexicaux en utilisant les seconds pour arriver aux premiers. La question est celle de savoir comment gérer et contrôler l’information d’un corpus, étape principale dans la recherche terminologique, qui constitue la base de l’extraction des termes et des structures prêtes ensuite à être traitées automatiquement dans une ou plusieurs langues. Le développement de l’informatique a contribué à l’accélération dans la réflexion sur la terminologie. L’informatisation des textes, le développement des outils pour les interroger, d’une part, la demande de la part de(s) entreprise(s), d’autre part, ont mené à une réflexion 812 différente sur le(s) texte(s) spécialisés. Déjà en 1990, informaticiens et linguistes se sont réunis (la frontière entre les sciences exactes et celles humaniste est franchie et une nouvelle approche sur interdisciplinarité commence à voir le jour) pour interroger les modes de prise en compte de textes dans la construction de terminologies. Cette rencontre a mené à la définition du concept de base de connaissances terminologiques (BCT), structure de représentation qui associe à un réseau de concepts des termes et des textes justifiant l’organisation du réseau (Meyer et al., 1992). L’informatisation des textes, le développement et l’envergure de l’Internet, ont pour les sciences de l’information un effet important. La première nous aide à accéder à des données existant sous forme matérielle, le second a introduit la notion de commerce dans le domaine qui était plutôt considéré comme un travail intellectuel. À partir des années 1990, les documentalistes et les terminologues ont été confrontés aux questions érigées par les effets de l’informatisation des textes du traitement automatique des langues et de la représentation informatique des connaissances. L’informatique s’est approchée des disciplines comme la terminologie, et les tensions sont ressenties par les deux. Il est nécessaire de normaliser pour favoriser les échanges dans une langue ou entre les langues. Toutefois, normaliser signifie imposer une vision du monde. Un point d’équilibre doit être trouvé entre les deux disciplines, puisqu’elles ont un mode de représentation commun : des concepts reliés par des relations qui mènent à la construction d’un système. Pour entreprendre une recherche terminologique, le terminologue réunit un ensemble de textes représentatifs du domaine étudié. Le corpus est l’ensemble constitué par ces textes. Un tel ensemble doit répondre aux conditions suivantes pour former un corpus (L’Homme, 2004) : - il constitue un ensemble de données linguistiques (des mots, des phrases, des morphèmes etc.); - les données linguistiques doivent apparaître dans un environnement naturel (des mots combinés dans des phrases, les phrases agencées dans des textes etc.); le corpus diffère des dictionnaires dans le sens que ceux-ci sont le résultat d’analyse faite par des spécialistes et reflètent un choix fait par eux; - la sélection des textes doit reposer sur des critères explicites et permettra à un tiers d’interpréter les généralisations faites à partir du corpus; - l’ensemble des textes est représentatif et doit être assemblé en fonction de l’élément à étudier, comporter un nombre suffisamment élevé d’occurrences de cet élément. 813 De nos jours, certaine entreprises, concernées par le traitement automatique des langues (TAL), ont confectionné des corpus dont certains atteignent une taille impressionnante. Certains d’entre eux peuvent être acquis, d’autres sont interrogeables par l’intermédiaire d’une interface Web. Les corpus sont utilisés dans différentes communautés professionnelles, techniques et scientifiques. Chacun (littéraires, linguistes, terminologues, lexicologues et linguistes informaticiens) s’en sert pour obtenir les segments de textes correspondant à un thème. Il existe aujourd’hui une volonté de mieux définir et d’unifier les méthodologies de compilations de corpus pour l’observation de données linguistiques contribuant à la linguistique du corpus. Pourtant, chaque projet terminologique entraîne la confection d’un nouveau corpus, même si on peut récupérer une partie des textes ayant servi à un projet antérieur. En plus, les corpus de grande taille construits par les lexicologues contiennent des textes spécialisés, mais leur caractérisation n’est par assez raffinée pour être utile au terminologues. «La valeur d’une recherche terminologique est directement fonction de la qualité de la documentation qui la fonde» (Dubuc, 2002). Le corpus doit constituer un ensemble représentatif de données linguistiques observables dans leur environnement naturel. En effet, toute la recherche terminologique s’organise à partir d’un corpus. La sélection rigoureuse des textes est garantie de la qualité de la recherche et il convient de passer un temps à structurer un corpus spécialisé. En premier lieu, il faut sélectionner des textes spécialisés qui portent sur le domaine et qui contient les termes spécifiques. Les textes contenus dans le corpus doivent répondre à certains critères. Ils ont été définis par Marie-Claude L’Homme dans La terminologie : principes et techniques et nous les reprendront tel quels : - Domaine de spécialité – les textes choisis doivent refléter le mieux possible le domaine ou le sous-domaine délimité au moment de la définition; - Langue(s) – la sélection sera faite dans chacune des langues constituant l’objet de la description; - Langue de rédaction – les textes du corpus ne doivent pas être des traductions, sinon, les traductions choisies doivent refléter l’usage réel dans le domaine; - Niveau de spécialisation – il est défini en fonction de l’auteur du texte et des destinataires. Pearson (1998) a identifié les niveaux suivants : a) expert à expert (article dans une revue scientifique); b) expert à un expert dans un domaine connexe; c) didactique (texte s’adressant à des spécialistes en devenir; d) 814 vulgarisation (texte écrit par un expert ou un non-expert qui s’adresse à une personne ne possédant pas a priori les connaissances contenus dans le texte). - Type de document – la forme de la publication est un reflet du niveau de spécialisation; on distingue des types de documents comme : manuel pédagogique, norme, catalogue, monographie, article scientifique, guide d’utilisation, rapport, actes et d’autres. - Suppport – la recherche terminologique s’appuie sur des textes écrits, d’autant plus dans un contexte ou l’on fait appel a des traitements automatiques; - Date de parution – les textes plus récents sont privilégiés; - Données évaluatives – il existe des critères de nature évaluative, comme la renommée de l’auteur ou de la publication ou de la maison d’édition. Nous pouvons constater que la sélection des textes repose sur des critères rigoureux, néanmoins, la taille et l’équilibre du corpus ne doivent pas être négligés. Les textes doivent contenir vraisemblablement les termes qui intéressent les terminologues ainsi que des renseignements sur ces termes. Comme le texte spécialisé porte sur un sujet ciblé, alors, il fait appel à un nombre limité de termes. Le corpus est équilibré lorsqu’il assure une certaine représentativité. Pearson (1998) affirme que les types de textes qui offrent la meilleure explication des termes et les relations entre eux sont les textes qui assurent une communication de l’expert au spécialiste en devenir (novice), contrairement à la communication du type expert-expert où l’information peut rester implicite. La communication de l’expert envers son disciple tente de fournir toutes les notions pour une meilleure compréhension. Les textes écrits destinés à la communication de l’information contiendront un grand nombre de relations sémantiques entre les concepts (synonymie, hyperonymie, métonymie), relations exprimées d’une manière explicite. Il existe aussi des corpus qui réunissent des textes en deux ou plusieurs langues, en d’autres termes, des corpus bilingues ou multilingues conçus pour des besoins de traduction. Ces corpus permettent aux terminologues de retrouver plus rapidement les correspondances interlinguistiques et font l’objet de traitements automatiques de uploads/Philosophie/ gestion-du-corpus.pdf

  • 48
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager