La transcription synchronisée des corpus oraux. Un aller-retour entre théorie,

La transcription synchronisée des corpus oraux. Un aller-retour entre théorie, méthodologie et traitement informatisé1 Anne DISTER et Anne Catherine SIMON Centre de recherche VALIBEL – UCLouvain {anne.dister,anne-catherine.simon}@uclouvain.be Résumé Les corpus oraux ont pour particularité qu’aux données primaires (les enregistrements) s’ajoutent des données secondaires (les transcriptions) nécessaires à leur exploitation. Cet article examine - les conséquences, sur les conventions de transcription à adopter, de l’évolution des outils informatisés pour l’exploitation des corpus oraux ; - l’implication qu’ont les conventions de transcription sur les types de requêtes et d’analyses qu’on peut mener sur les données ; - comment la transcription synchronisée, en alignant le texte et le son, facilite l’accès au son mais introduit un artéfact dû au choix d’une unité temporelle d’alignement. De manière plus particulière, cet article examine l’évolution des conventions de transcription et d’alignement2 utilisées dans la banque de données VALIBEL et analyse les problèmes et les conséquences de ces conventions pour l’annotation et la recherche linguistique sur corpus. 1. Grands principes des conventions de transcription Toute analyse linguistique de productions orales est impossible à partir de la seule source sonore. En effet, le chercheur aura beau écouter et réécouter encore les enregistrements, il ne peut les appréhender uniquement par le biais du son. Ceux-ci ne pourront devenir objets d’étude à part entière qu’à partir de leur mise en/par écrit. La parole reste fluide, essentiellement fugace, même après avoir été captée sur bande sonore : On ne peut pas étudier l’oral par l’oral, en se fiant à la mémoire qu’on en garde. On ne peut pas, sans le secours de la représentation visuelle, parcourir l’oral en tous sens et en comparer les morceaux. (Blanche-Benveniste 2000 : 24) 1 Cet article a bénéficié des commentaires éclairants de Michel Francard et de Philippe Hambye. Toute erreur ou imprécision y subsistant est à attribuer à la seule responsabilité des auteures. 2 Avec le logiciel Praat (Boersma et Weenink 2007). On est donc là devant un paradoxe, mis en évidence par de nombreux chercheurs (Blanche-Benveniste et Jeanjean 1987, Blanche-Benveniste 1997 et 2000, Gadet 2003, Raingeard et Lorscheider 1977) : pour approcher l’oral, on doit « en passer » par l’écrit. Dès ses débuts en 1989, le centre de recherche VALIBEL (acronyme pour Variétés Linguistiques du français en Belgique), qui constitue et exploite de grands corpus oraux3, a réfléchi à ses pratiques de transcription et établi des conventions de transcription explicites. Celles-ci ont d’emblée suivi quatre grands principes4 : adoption de l’orthographe standard, non-recours à la ponctuation de l’écrit, valorisation de l’oralité des corpus et compatibilité avec un traitement informatisé. 1.1. Adoption de l’orthographe standard Pour les recherches linguistiques autres que celles concernant directement la forme phonique (phonétique, phonologie, prosodie), VALIBEL transcrit en utilisant l’orthographe traditionnelle. Ceci est loin d’être le cas dans toutes les pratiques de transcription, où l’orthographe traditionnelle est souvent adaptée, dans la volonté de marquer des particularités de prononciation. Ces particularités apparaissent à travers la graphie et non dans une notation phonétique. Ainsi, le Guide de présentation de mémoires et de thèses en linguistique et conventions pour la transcription de conversations (Losier et al. 2002) détaille les conventions que doivent adopter les étudiants pour la transcription de corpus acadiens. Voici un extrait de ces conventions : - chus pour je suis. Il importe ici de garder le s, puisqu’il s’agit du verbe à la première personne. Il serait possible de transcrire j’suis, mais ce ne serait pas exact à cause de l’élision du i. - j’sais, j’savais, j’chante, etc. Il y a élision du je devant une consonne. - j’sais pas pour je ne sais pas. Même si le sais est prononcé [ȓe], il est préférable d’adopter cette transcription plutôt que che pas. - i pour il et ils, a ou alle pour elle. - celle-cite pour celle-ci - à c’t’heure pour maintenant. - qu et ti prononcés [tȓ] sont écrits tch, comme dans tchequ’un (quelqu’un), tchèque part (quelque part), moitché (moitié), pitché (pitié), tcheu fou (quel fou). 3 Ces corpus forment aujourd’hui le plus grand corpus informatisé de données textuelles orales en francophonie : une banque de données de près de 4 millions de mots. 4 Voir Francard et Péronnet (1989) pour une première formulation. Ces déformations graphiques affectent aussi bien des pronoms, des suites pronom+verbe que des lexèmes. Le but est de calquer, dans la graphie, les variantes de prononciation répandues dans le français acadien. Ces aménagements graphiques sont clairement liés, dans les conventions citées ci-dessus, à une conception des unités linguistiques du système observé. L’idéologie sous-jacente est que chus est une unité à part entière du système acadien, et non pas une variante marquée de l’oral. Cet exemple illustre en quoi une transcription est une analyse. Ces modifications graphiques participent de ce que Blanche-Benveniste et Jeanjean (1987) appellent des trucages orthographiques 5 . Trucages, parce que ces formes ne correspondent pas à des graphies connues d’un scripteur/lecteur de la langue, telles que répertoriées dans les ouvrages de référence par exemple, tout en y renvoyant néanmoins. Dans de telles transcriptions, on est entre les deux : ni tout à fait de l’oral, ni tout à fait de l’écrit. En outre, une représentation de la phonétique mêlée à l’orthographe est très imparfaite et est source d’erreurs puisqu’à chaque occurrence d’une forme (par exemple, les pronoms il ou ils), il faut prêter attention à sa prononciation exacte et la traduire par une graphie non standard (par exemple, y dans le cas d’une prononciation [i]). On ne peut nier l’effet de stigmatisation qu’engendre la lecture d’une transcription ainsi aménagée sur les propos de la personne et, par là, sur la personne elle-même (Gumperz et Berenz 1993 : 97). Ces altérations graphiques (notamment l’élision de voyelles) sont d’ailleurs fréquemment utilisées par les écrivains, depuis le XIXe siècle, pour stigmatiser le parlé de personnes issues de classes populaires. Dans les publications scientifiques, l’utilisation de telles adaptations graphiques a indéniablement des implications sur l’analyse. Considérons le texte suivant, transcription d’une conversation entre élèves de CE26. Olivia : Oh ! le hamster ? 5 Giovannoni et Savelli (1990) parlent quant à elles de « bricolage orthographique », Gadet (2003) d’« aménagement graphique », Raingeard et Lorscheider (1977) de « bâtards phonético-orthographiques ». Dans le corpus édité par ces dernières, on est donc étonnées de trouver main’ant pour maintenant, pa’ce que pour parce que, c’qui faut pour ce qu’il faut, et ‘pis pour et puis, i’ veulent pour ils veulent, i’ faut pour il faut, c’t-à dire pour c’est-à-dire, etc. 6 Cette transcription est extraite de Verstraete (2000 : 154-156). Nous avons respecté strictement la typographie et la mise en page originales. Le gras note que l’élève lit ; les majuscules marquent l’accentuation ; les doubles barres l’hésitation entre deux interprétations /« beuh »,peur/ ; E indique une indétermination du locuteur. Ponctuation et didascalies ont été ajoutées par Verstraete en vue de sa publication. Notre seule intervention concerne la graphie de maitresse, qui suit, comme tout notre texte, les recommandations orthographiques de 1990. Sélalé: Hein !! Eh elle sait même pas c’ que c’est qu’un hamster !!! Lévy : C’est une bête hé ! Sélalé : C’est un p’ tit truc : ça ressemble un peu à une souris !! Olivia : (très sûre d’elle ) Mais NON ! un HAMSTER ! Pas un animal ! Lévy : Un hamster c’est un animal. Sélalé : Ben oui c’est un p’tit animal qui ressemble un peu à une souris… Olivia : (rires moqueurs) C’est un animal ? un hamster ! …Eh r’ garde (parle au magnétophone, en articulant bien) Un hamster est un animal ! (rires moqueurs) … (puis se rangeant brutalement à l’avis des autres) Ouais, j’en ai un chez moi. Kévin : (plus vite)…que faisaient les Gaulois pour effrayer les esprits ? (lit la question 3) Tarik : arrête Vincent ! Vincent : Y f’saient /« Beuh », « peur »/ ! EEE : Rires Vincent : Ou bien y cassaient leurs couilles Rire de Karen Maitresse : chut Vincent : y faisaient /la mort/ Tarik : Attends fais voir… Kévin : Ils tuaient les gens… Karen : Non ! Vincent : Ben ouais p’têt ça… Karen : Non quand même pas ! …Non les Gaulois y faisaient pas ça ! … Je sais qu’ils ont tué… mais… On voit les trucages utilisés ici : élision marquée au moyen de l’apostrophe (p’tit, c’que, p’têt, f’saient, r’garde), ce qui produit un effet d’ailleurs assez étrange pour r’garde, dont la mise en page laisse le r’ seul en fin de ligne ; utilisation de la graphie y pour noter la prononciation du pronom ils7. Par ailleurs, informant le lecteur du cadre sociologique dans lequel s’est effectué son travail, l’auteure rapporte que l’école « est située dans une zone urbaine sensible », que six élèves (sur vingt) ont déjà doublé une fois, que « la plupart des élèves ont un rapport au savoir qui n’est pas toujours direct », que certains ont des difficultés psychologiques et sont suivis par un psychologue (2000 : 153-154). Elle précise également que uploads/Litterature/ arena-romanistica-dister-simon.pdf

  • 49
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager