Linguistique de corpus | Cours 1 L’essor de l’informatique a poussé les linguis

Linguistique de corpus | Cours 1 L’essor de l’informatique a poussé les linguistes à en tirer profit afin de développer la linguistique du corpus. Cette dernière est considérée comme une discipline qui consiste à révéler les régularités linguistiques dans les langues à travers les corpus informatisés. Corpus : D’un point de vue linguistique, le corpus est « une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon de langage ». Sinclair (1996, cité par Habert 2000) Domaines et contextes de corpus : Traduction, sociolinguistique, didactique, lexicologie, la linguistique comparée, TAL (traitement automatique du langage) Exemple : l’étude d’usage ou de fréquence d’éléments linguistiques afin de développer des méthodes de classification de documents pour la synthèse automatique. Remarque : Etant donné que la linguistique de corpus est mieux établie dans le domaine de la langue générale que dans les langues de spécialité, la majorité des travaux sur le corpus traitent les corpus de langue générale. Types de corpus:  Écrits/oraux  Ouverts/fermés (auxquels on peut ajouter constamment de nouveaux textes)  Spécialisés/généraux Construire un corpus : principes et critères  La représentativité (la variété des textes, d’auteurs, de sources, de typologie textuelle, de régions géographiques.  Faisabilité : temps et matériels à disposition.  L’interchangeabilité d’un corpus : corpus réutilisable.  Taille de corpus.  Annotation et étiquetage. Remarque : Dans toutes présentation des résultats de recherche, il faut impérativement bien décrire le processus de construction du corpus. Les avantages et les atouts de la linguistique de corpus : Par rapport à la linguistique traditionnelle qui étudie la langue souvent hors contexte, la linguistique de corpus manifeste deux avantages : l’analyse qualitative contextuelle et l’analyse quantitative. Sur le plan quantitatif le corpus donne accès à un grand nombre de textes qui permet de dégager des régularités en matière de l’utilisation des éléments linguistiques, syntaxiques et même sémantique ce qui contribue à construire la représentativité et/ou la spécificité des éléments étudiés. Sur le plan qualitatif, le corpus fournie un contexte où se produisent des phrases et des combinaisons lexicales. Il faut signaler que le lexique et la phrase ne doivent pas être compris seulement hors contexte. En revanche, il faut les inscrire dans une situation réelle afin de préciser le vrai sens du lexique et la vraie information véhiculée dans la phrase. La linguistique de corpus permet de travailler sur une langue authentique (non idéalisée). Le linguiste ou chercheur se confronte au langage réel sur le terrain. En ce sens, le linguiste peut faire recours à son intuition, c’est donc une linguistique introspective. La linguistique de corpus permet aussi de mettre en évidence des phénomènes qui ne sont pas nécessairement perceptibles à l’œil nue. Par exemple les cooccurrences lexicales particulièrement pertinentes. La linguistique de corpus peut introduire un ensemble de changements importants. D’un point de vue méthodologique, la linguistique de corpus met l’accent sur les données observables pour vérifier les hypothèses. En ce sens, on s’inscrit dans une démarche expérimentale. Même avec un corpus gigantesque, il sera difficile de confirmer qu’une construction est possible ou impossible. La linguistique de corpus introduit également des changements épistémologiques. Par exemple : elle abolit (elle met fin) à la dualité classique de la linguistique traditionnelle langue/parole. Elle rond centrale la question du genre textuel, les productions langagières varient très fortement selon le registre de langues de ces productions. uploads/Ingenierie_Lourd/ linguistique-de-corpus-cours-1.pdf

  • 10
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager