Pour une phonologie de corpus* BERNARD LAKS Université de Paris X, laboratoire

Pour une phonologie de corpus* BERNARD LAKS Université de Paris X, laboratoire MoDyCo (Received August 2007, revised September 2007) 'It has always seemed to me, ever since I first tried to become a grammarian, that grammar was a subject with too much theory and too little data' (Halliday, 1992:61) ABSTRACT Pour les sciences du langage, comme pour toutes les sciences, la question du rapport aux données est l'une des plus fondamentales qui soit. Les avancées technologiques récentes en matière d'analyse et de fouille de bases et de banques de données linguistiques ont donné à la question de la relation entre corpus et modèles une acuité nouvelle. Face aux constructions génératives qui voient la théorie comme fondamentalement sous déterminée par les données factuelles, de nouvelles approches ont été proposées qui mettent au premier plan les faits de langue observables et construisent l'analyse linguistique comme une modélisation des usages. Voir dans ce renversement de la relation entre données et modèles un simple effet des technologies nouvellement disponibles et défendre que les linguistiques de corpus ne sont rien d'autre que de simples dispositifs techniques au service d'une linguistique descriptive, empirique ou herméneutique, occulte les questions épistémologiques centrales qui commandent la relation de la science linguistique à ses observables. En réanalysant l'opposition classique entre sciences de l'exemplum et sciences du datum, je montre ici que la linguistique, et singulièrement la phonologie, se sont construites, contre la grammaire, comme des sciences empiriques ayant pour objet la modélisation des observables linguistiques. La notion de corpus apparaît ainsi l'une des plus anciennes qui soient. Comprendre son ancienneté et construire son historicité permettent de saisir ce qui est en jeu dans son resourcement technologique récent et permet de voir le moment génératif comme une parenthèse, certes un temps productive, dans la longue confrontation du linguiste 1 modélisateur à ses corpus d'observables. L'enjeu de la réanalyse de la notion de corpus en linguistique et en phonologie est donc considérable, contre la vulgate saussurienne qui doit si peu à la pensée du Maître genevois, il ne s'agit de rien de moins que frayer le chemin d'une linguistique de parole, condition sine qua non, comme il l'a souvent dit d'une linguistique de la langue. Préambule : Une histoire nécessaire Il y a quelques années déjà, avec Jacques Durand, puis avec John Goldsmith, j'ai plaidé pour le caractère fondamentalement cumulatif de la phonologie, pour autant qu'elle se pense et se définisse comme une science galiléenne (Durand et Laks, 1996 ; Goldsmith et Laks, 2005). Cette position a connu un certain succès dans les cercles phonologiques (cf. Scheer, 2004b). Elle implique de porter une attention soutenue à l'histoire et à l'épistémologie de la phonologie, tant il est vrai que, comme l'a souvent rappelé Bourdieu, l'histoire et l'épistémologie d'une science sont partie intégrante de cette science et constituent, par le travail d'anamnèse qu'elles supportent, l'une des conditions sine qua non de sa scientificité propre (Bourdieu, 2001). C'est pourquoi, il est toujours nécessaire, lorsqu'on se propose d'articuler une analyse des courants nouveaux qui émergent dans une discipline, d'en commencer par une mise en perspective historique et épistémologique. Dans ses divers linéaments, la linguistique de corpus est à la mode, et la phonologie de corpus s'impose dans le paysage académique contemporain. Eclairer l'une et travailler à promouvoir l'autre supposent donc quelque préambule historico-épistémologique. 1. Faits de langue : exemples et données linguistiques Dans une perspective poppérienne, la qualité cumulative d'une science est étroitement liée au formatage et au statut de ses data ainsi qu'à l'explicitation et à la transparence des méthodologies qui permettent de les recueillir, et surtout de les reproduire. Or les questions du statut des données, des méthodes de leur collecte, du format dans lequel elles sont couchées, commentées et transmises, pour fondamentales qu'elles soient, sont parmi les moins abordées de la linguistique et de la phonologie contemporaines post-SPE. Elles ont pourtant fait l'objet de grandes attentions dans les périodes qui ont précédé. La philologie classique, la grammaire 2 historique et comparée, le structuralisme européen et surtout américain ont tous inscrit leur démarche scientifique dans une problématique plus ou moins explicite de collecte puis d'analyse de données accumulées en collections stabilisées que l'on peut appeler des corpora1. Cette pratique se distingue nettement d'une méthodologie plus classiquement grammairienne fondée sur la référence à des exemples très rarement constitués en collections stables et fermées, systématiques, classées, publiques et partagées2. En histoire et épistémologie des sciences, l'opposition entre sciences de l'exemplum et sciences du datum est fondamentale. Cette opposition est pour une part constitutive de la rupture introduite par la grammaire générative dans la deuxième moitié du 20ème siècle. L'option cartésienne, réaffirmée lors du tournant cognitiviste des années 19653, fonde la grammaire générative sur une analyse des intuitions d'un locuteur-auditeur idéal et abstrait, appartenant à une communauté linguistique homogène qui apprend la langue instantanément et n'est affecté par aucune des limitations de la performance (Chomsky, 1965: 4). Outre leur labilité individuelle et inter individuelle, les jugements de grammaticalité ne sont jamais constitués en corpus publics et opposables permettant d'évaluer relativement consistance et complétude de telle analyse ou de telle argumentation générative. En linguistique, il n'en a pas toujours été ainsi. Aux 19ème et 20ème siècles, les sciences du langage et leurs précurseurs se sont constituées comme des sciences du datum, inscrivant leur démarche dans la dynamique épistémologique qui depuis la Renaissance faisait émerger la science moderne comme une systématique adossée à de larges compendiums de faits. Du point de vue historique, la notion de corpus apparait en effet comme très ancienne, mais elle joue un rôle de première importance dans le développement de la pensée scientifique moderne. Il faut donc y regarder de plus près. * Ce travail a été nourri de nombreuses discussions et échanges. Je remercie Chantal Lyche, Jacques Durand, John Goldsmith et Ernesto d'Andrade. J'ai également bénéficié de la relecture experte et anonyme de trois collègues que je remercie pour la pertinence de leurs remarques et suggestions. Tous blâmes sont miens, toutes laudes sont leurs. 1Comme Blanche-Benveniste (2000 : 2), je note que 'plus exacts latinistes que les Français, les linguistes des autres pays européens disent généralement un corpus et des corpora'. Comme elle, néanmoins, je me conforme dorénavant, à l'usage français. 2 Pour une analyse historique du rôle et de la disposition des exemples ainsi que de leur relation à la norme Cf. Chevalier (2007). 3 Pour une analyse Cf. Goldsmith et Huck (1995). 3 1.1 Généalogie du corpus Sans entreprendre ici une véritable généalogie du concept de corpus, je note cependant qu'il remonte au moins à Justinien (527-565) qui fit compiler le Corpus Juris Civilis -recueil à vocation exhaustive qui contenait les constitutions impériales, un manuel de droit et l'ensemble de la jurisprudence commentés. En rappelant que le corpus de Justinien faisait pendant au Corpus Juris Canonici, on se souvient de ce que la notion de corpus doit à la pensée théologique, au moins dans les religions du Livre. L'empilement des commentaires consacrés, des exégèses canoniques et des références croisées forme dans les religions monothéistes de très vastes banques de données textuelles que l'on peut souvent qualifier anachroniquement d'hypertextuelles. Que l'on songe seulement, par exemple, à la Torah entourée des strates successives de ses commentaires reçus, aux Evangiles dits Synoptiques et aux travaux qu'a suscité le Problème Synoptique durant des siècles, ou encore aux Hadiths et à leur appareil exégétique. Il s'agit toujours, de vastes corpus structurés, clos, stables et publiquement acceptés. Ces corpus sont certes à vocation herméneutique ou religieuse, mais si l'on se tourne à présent du côté des sciences naissantes de la période moderne, on soulignera à nouveau le rôle heuristique des vastes compendiums de faits, clos, structurés, stables et publiquement partagés4, rassemblés à cette époque. De l'histoire naturelle de Buffon aux grands classements de Linné, l'accumulation des faits, des données et des descriptions est constitutive d'un classement raisonné qui fonde une première théorisation et une première modélisation. Adossée à d'énormes compendiums, la Science se dégage alors comme un raisonnement sur l'organisation des données, comme une contemplation, une θεωρία (théoria) conduite par la structuration interne des données. Dans cette émergence, l'importance de Carl von Linné fut considérable. Avec la notion de taxon (catégorie abstraite, construite et super ordonnée) il engage l'esprit scientifique moderne. Avec lui, le compendium s'analyse désormais en taxinomies raisonnées lesquelles constituent le socle même de toute théorisation et modélisation scientifique. Le lien entre corpus et modèle est enfin explicitement établi dans la Systématique dont Mendeleïev livrera à la fin du 19ème siècle l'un des monuments les plus accomplis. Il peut sembler que l'on est bien loin de la 4 Faute de place, je ne développe pas ici la notion de représentation publique que j'applique implicitement aux corpus. Je renvoie à la Théorie de la Pertinence (Sperber et Wilson, 1989). L'existence de corpus publiquement acceptés me semble constituer un critère minimal de cumulativité scientifique. 4 linguistique5, mais pour se convaincre du contraire il suffit de rappeler le parallélisme étroit qui existe entre le Tableau Périodique des Eléments, avec ses cases vides et leur poids atomique prédits par uploads/Science et Technologie/ article-laks-2007-12-21.pdf

  • 28
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager