Adeline Moog – 2015/2016 Analyse de corpus I / Le recours au corpus en linguist
Adeline Moog – 2015/2016 Analyse de corpus I / Le recours au corpus en linguistique 1. Principes et méthodes de la linguistique de corpus Les sens du mot corpus L’acception du mot corpus est plus large que celle qu’on considère dans ce cours : recueil de pièces, de documents concernant une même discipline ou ensemble fini d’énoncés réels réunis en vue de l’étude d’un phénomène linguistique. Corpus : collection de textes au format électronique relevant de tous les genres et de tous les domaines possibles fournissant des données qui permettent l’étude d’une langue ou d’une variété langagière à travers l’observation à grande échelle de ses usages langagiers réels (attestés et diversifiés). - Nécessairement disponible au format électronique, afin de pouvoir être analysé à l’aide d’outils informatiques. - Fait de données attestées, pour observer le langage tel qu’il est utilisé véritablement - Constitué selon un objectif d’étude particulier, en répondant à des principes méthodologiques qui doivent être précisément définis Les corpus sont très variés, mais ils permettent tous l’étude des usages réels d’une langue et le traitement par ordinateur des données qu’ils contiennent. Plusieurs façons de faire de la linguistique ? Les faits linguistiques peuvent être dégagés de plusieurs manières : la linguistique de corpus (corpus linguistic) ou l’approche introspective, qui s’appuie sur l’intuition linguistique des locuteurs « compétents » (armchair linguistic). Chaque façon de travailler a ses inconvénients : - Le linguistique qui travaille sur corpus a potentiellement énormément de données à sa disposition, mais tout n’est pas intéressant et il peut manquer des données précieuses : o Un corpus n’est jamais exhaustif : les paramètres de l’étude doivent être considérés et précisés rigoureusement. (résultats considérés comme temporaires) o Un corpus ne fournit jamais de contre-exemples o Les données qu’on retrouve dans un corpus sont parfois contestables : les hapax - Celui qui travaille en recourant à son intuition est confronté au problème de la fiabilité des données qu’il utilise : o Le jugement réflexif n’est pas toujours fiable o Chaque locuteur a une compétence limitée Chaque façon de travailler a ses avantages : - Les corpus donnent accès à des données nombreuses, objectives et diversifiées, une vision intéressante sur la langue, impossible à prédire d’une autre manière - Aucun corpus ne donne accès seul à tous les faits langagiers. L’intuition peut donc être très utile comme complément d’information. Le linguiste s’intéresse à ce qui se dit/s’écrit lorsque c’est révélateur d’usages réguliers (critère quantitatif/de fréquence fondamental). Les deux approches sont donc complémentaires. Le travail sur corpus doit être complété d’analyses faisant appel au jugement linguistique réflexif. Adeline Moog – 2015/2016 2. Apports des corpus en linguistique Diversité des types d’utilisation des corpus Le travail sur corpus est une tradition ancienne en linguistique. Il existe des secteurs de l’analyse linguistique dans lesquels le recours aux corpus est une pratique courante voire inévitable : - Acquisition du langage, car on ne peut pas interroger les jeunes enfants sur leur pratique - Etude descriptive et comparative des langues - En linguistique diachronique : étude des états de langue dont le linguiste n’est pas locuteur - En sociolinguistique, surtout des recueils de données orales Ce qui a changé désormais, c’est la nature des corpus et la façon de travailler les données : grands volumes de données électroniques, secteurs d’exploitation diversifiés. Des corpus pour l’apprentissage des langues - Fournir aux chercheurs des données relatives aux difficultés d’apprentissage des apprenants grâce à la collecte de leurs productions langagières et la comparaison avec les productions émanant de locuteurs natifs Ex : projet Elicorp, recherches sur le français parlé et les savoir-faire communicationnels des locuteurs natifs (interrogations totales ou partielles), et conception de manuels d’apprentissage focalisés sur les difficultés rencontrées par les apprenants (étude du passif). - Fournir directement aux apprenants des données leur permettant de progresser de façon autonome et raisonnée dans leurs apprentissages en étant confrontés directement avec des productions langagières attestées et variées et en observant les structures en contexte. Outil privilégié d’exploration des corpus : le concordancier, qui affiche en contexte toutes les occurrences d’une forme pivot. Des corpus pour la conception d’ouvrages de référence : dictionnaires et grammaires Les grammairiens et lexicographes ont toujours eu recours à des ensembles de textes pour recueillir des attestations pour illustrer leurs descriptions. Désormais, on met le corpus au cœur de la confection des dictionnaires et grammaires. Dictionnaires - Sélection de la nomenclature du dictionnaire : quels mots vedette sélectionner, quels nouveaux mots ajouter, quels mots supprimer ? On parle de corpus-based lexicography. (Ex : les dictionnaires Cobuild sont basés sur le Collins corpus) - Détermination des différents emplois de chaque mot : néologie de sens - Choix des exemples les plus représentatifs illustrant les emplois Le Trésor de la Langue Française (CNRS) est le dictionnaire le plus complet du français (100 000 mots vedette). Il recourt à un large fonds documentaire comme source d’attestations et support de la description lexicographique : création de la base textuelle Frantext. Ex : Etude de 2001 sur la constitution d’un dictionnaire d’apprentissage du français, le DAFLES. But des chercheurs : objectiviser la procédure de saisie de la nomenclature en utilisant un corpus pour examiner le décalage entre les mots du corpus et ceux du dictionnaire d’apprentissage. Mise en évidence de lacunes dans le dictionnaire et de mots peu utilisés dans le langage courant toutefois présent dans le dictionnaire. Adeline Moog – 2015/2016 Il est toutefois important d’utiliser ce critère de fréquence avec beaucoup de précaution : des mots usuels peuvent être rares dans le corpus considéré. Le corpus constitue un biais, une image spécifique, partielle du lexique. Il est important de bien le constituer. Grammaires - Précision du type de discours dans lequel les structures grammaticales décrites sont privilégiées, pour que l’apprenant utilise ces structures à bon escient. Ex : la grammaire Longman (Biber et al. 1999) se base sur un corpus de textes écrits et de transcriptions de conversations orales. Elle donne des informations aux lecteurs sur les pattern of use, c’est-à-dire les schémas ou tendances d’usage : ce qui est dit/écrit typiquement vs. ce qui est dit/écrit rarement, et comment ces usages se répartissent selon le genre des textes. (Subordonnées interrogatives, formes contractées) Des corpus pour l’analyse des discours politiques La lexicométrie est l’étude statistique du vocabulaire, science qui étudie la répartition de vocabulaire dans le discours, méthodologie nouvelle d’analyse de corpus électroniques mise en place par les chercheurs du laboratoire « Lexicométrie et textes politiques » de l’ENS Lyon. Etude chronologique du discours syndical (Salem, 1993) Le corpus de textes de congrès syndicaux rédigés entre 1973 et 1988 (corpus chronologique) permet de dégager des évolutions dans l’utilisation du lexique. Exemple d’observation : le terme « salariés » se substitue au terme « travailleurs ». La fréquence relative décroit pour « travailleurs » alors que c’est l’inverse pour « salariés ». L’étude des contextes d’apparition des deux formes permet de confirmer que l’une se substitue à l’autre. L’auteur de l’étude précise que cette conclusion doit toutefois être nuancée : les deux formes conservent des caractéristiques propres (l’expression « travailleurs immigrés » perdure) Etude du vocabulaire présidentiel : le cas de François Mitterrand (Labbé, 1990) Corpus d’interventions radio-télévisées de FM pendant son premier septennat (1981 – 1988) : 68 interventions, 305 124 mots, à peu près 40h de diffusion. Observations basées sur la fréquence des mots : - les 20 substantifs les plus fréquents chez FM sont banals, on les retrouve dans tous les discours politiques français, et presque tous se retrouvent dans le vocabulaire fréquent de Chirac ou De Gaulle. - présence de verbes désignant la pensée plutôt que l’action, déficit de verbes exprimant la connaissance, utilisation importante des modalités pouvoir, vouloir, devoir. Observations basées sur les contextes d’utilisation des mots : - le pronom personnel « je » (banal dans le discours oral) est fortement associé aux verbes de parole, de pensée, de volonté (croire, dire, penser, souhaiter, espérer, vouloir) mais pas aux verbes marquant la possibilité ou la nécessité (pouvoir, falloir, permettre, exister). - la présence forte de la modalité « vouloir » est commune à Mitterrand et Chirac alors que les discours de Giscard sont plutôt marqués par la modalité « savoir ». Ces analyses fournissent le point de départ d’interprétations que peuvent ensuite réaliser les experts du discours politique. Richesse lexicale des discours politiques (Véronis, 2007) L’indice le plus simple pour évaluer la richesse lexicale d’un texte consiste à faire le rapport entre le nombre total d’occurrences du texte étudié et le nombre de formes (mots différents). Problème : cet indice est inutilisable pour comparer directement deux textes de taille Adeline Moog – 2015/2016 différente. Cette technique est plus intéressante si l’on dispose d’un nombre important de textes. On reporte l’indice de chaque discours sur un graphique et on obtient une tendance globale. Véronis a fait ce travail sur les discours des 4 « grands » candidats de la présidentielle de 2007. Cette richesse lexicale (aucun jugement de valeur ni de compréhensibilité) donne une information très globale sur la tendance des personnalités politiques à uploads/s3/ fiche-de-revision-analyse-de-corpus.pdf
Documents similaires










-
32
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 19, 2022
- Catégorie Creative Arts / Ar...
- Langue French
- Taille du fichier 0.1373MB