Programme détaillé Multi-modalité : parole/gestualité Les logiciels Praat, Anvi

Programme détaillé Multi-modalité : parole/gestualité Les logiciels Praat, Anvil, ELAN pour annoter des enregistrements audio et vidéo Question de l’unité de découpage de l’information Question de la transcription, du codage de l’information Initiation à ELAN Les tiers indépendantes : segmentation des unités, chevauchement de l’information Les tiers hiérarchisées : stéreotype, dépendance, niveau d’analyse La saisie : phonétique, vocabulaire controlé L’importation de données (CSV, textGrid…) La recherche dans un corpus annoté L’exportation (HTML, CSV…) Objectifspédagogiques Donner un bref aperçu des fonctionnalités de différents logiciels utilisables pour la représentation et l’analyse de la parole dans ses différents modes d’expression. Prise en main du logiciel CLAN. Pré-requis Savoir utiliser communément un ordinateur personnel (visualiser, copier, supprimer, des fichiers sous un système courant, télécharge une vidéo) Il vous donne des informations sur certains outils informatiques destinés à faciliter la collecte, le traitement et l’analyse des données de recherche basée sur le texte ou sur l’oral. Il est assorti de quelques conseils de bon choix. L’envie de décrire et de formaliser avec plus de précision oblige les chercheurs à se tourner vers l’informatique afin de se faciliter la tâche. Dans presque tous les domaines des sciences du langage, le recours aux outils informatiques devient de plus en plus nécessaire. De leur côté, les informaticiens sont permanemment interpellés pour le développement des logiciels afin de répondre aux sollicitations du monde de la recherche et des entreprises. En plus de cette collaboration, les chercheurs de différents laboratoires et unités de recherches s’associent pour mieux orienter les outils informatiques dans leurs travaux. La méthodologie a consisté à recenser ceux que nous avons appris, utilisés ou expérimentés dans notre cursus de recherche en sciences du langage. Certains ont été utilisés dans le traitement et l’analyse de données de recherche. C’est le cas de Toolbox en sémantique lexicale en 2006 (Guiré, 2007), Praat en acoustique de la parole. CLAN en traitement et analyse de corpus multimédias bilingue Les logiciels qui utilisent l’approche linguistique sont ceux qui sont conçus dès la base sur des critères de recherches linguistiques, voire, sur des théories linguistiques. Ils incluent une description linguistique fine du phénomène étudié avec l’avantage de traiter même les corpus de petite taille. Ils permettent ainsi les traitements lexical, morphologique et syntaxique. Tous ces logiciels utilisent des données textuelles, alors que beaucoup de nos recherches en Afrique ont recours à la tradition orale. Le recueil de corpus audio et vidéo s’avère nécessaire. Il faut pour cela, une autre catégorie de logiciels capables de traiter scientifiquement ce type de données. Ce traitement passe d’abord par la maîtrise des normes de transcriptions. 1.1. La transcription des données Il est reconnu qu’il est presque impossible d’exploiter directement un enregistrement sonore ou visuel à partir du seul fait de réécouter. « On ne peut pas étudier l’oral par l’oral en se fiant à la mémoire qu’on en garde. Il est nécessaire d’avoir une phase dédiée à la transcription de l’enregistrement avant son exploitation. Les outils informatiques pour la linguistique proposent des conventions de transcription pour assurer l’extraction aisée des données. En plus de ces conventions, certaines langues orales, selon les pays, doivent être transcrites avec un alphabet qui ne pas forcément celui de l’Alphabet Phonétique International (API). Ce n’est donc pas une transcription phonétique qui y est utilisée. La transcription est destinée à faciliter l’analyse et non pas à la remplacer. Les linguistiques ont adopté une convention de transcription pour les langues africaines au regard de leur statut de langue orales. Il s’agit de l’IAI (International African Institute). Au Burkina Faso par exemple, un alphabet orthographique a été adopté pour toutes les langues nationales. C’est au vue de cet alphabet orthographique national que les sous-commissions nationales des langues adoptent un alphabet et des règles orthographiques pour chaque langue. A partir de ce moment, tout travail qui se fera sur une langue quelconque du pays doit se faire selon ces règles orthographiques codifiées. Cette transcription est graphémique et non phonémique. Il y a plusieurs types de transcriptions ; La transcription pour la recherche en sciences du langage Ce type de transcription à deux objectifs à savoir, automatiser la fouille, l’extraction et le partage des données, et orienter la recherche sur la langue. Ce pourrait être des recherches en sociolinguistique, en didactique des langues, en psycholinguistique ou en linguistique descriptive. La transcription à usage scientifique est une tâche fastidieuse. Mais lorsqu’elle est soigneusement faite, elle permet toutes sortes de manipulation du contenu linguistique transcrit en la rendant exploitable. 2. Les outils informatiques pour les sciences du langage La caractéristique des outils informatiques pour la linguistique dans le traitement des corpus oraux est qu’ils permettent d’avoir à la fois le son et sa transcription correspondante. Le son ou l’image sonore peut être segmenté en énoncés ou en unités syntaxiques ou lexicales. Selon les logiciels, on peut même affiner la segmentation afin de transcrire les unités linguistiques plus petites au niveau acoustique. On peut citer entre autres outils linguistiques pour la transcription et le traitement des corpus oraux, ELAN, TRANSANA, Transcriber, EXAMARaLDA, ANVIL, CLAN, Praat… CLAN (Computerized Language Analysis) est un logiciel de transcription alignée de fichiers audio en format aif, aiff, wav, mp3 et vidéo en format mpeg, mpg, dat, mov. Il est développé par Brian MacWhinney et Leonid Spektor de l’université de Mellow Canergie. C’est un logiciel freeware qui fonctionne sur des plateformes Linux, Macintosh et Windows . Il est spécialisé dans la transcription de corpus multimédias, c’est-à-dire qu’il permet une transcription du signal audio et une annotation synchronisée d’événements, d’observations de gestes liés au signal vidéo. Ce qui permet de désambiguïser le signal audio et d’apporter plus de compréhension du contexte d’élocution. Il permet également l’exportation de fichiers vers d’autres logiciels comme Praat et ELAN. Malgré qu’il ne permette pas de lire plus d’un fichier vidéo à la fois, il a les avantages suivants : 1. La visualisation en temps réel de la transcription alignée et de la vidéo, 2. La formulation de requêtes particulières pour extraire des données ciblées, 3. Une augmentation à volonté des tiers intermédiaires précédées du signe %, 4. Une grande communauté d’utilisateurs qui ne cesse de s’accroître. 5. Une possibilité d’importation et d’exportation de fichiers vers Praat. Tous ces logiciels sont destinés à transcrire soit le son (audio), soit l’image (vidéo) ou les deux à la fois. Mais les possibilités qu’offrent ces logiciels ne sont pas les mêmes, elles dépendent des objectifs que se sont fixés les auteurs et les projets qui les développent. Il convient donc de faire le bon choix avant de commencer une transcription, il serait même judicieux de tenir compte du logiciel d’annotation et de transcription depuis l’enregistrement des données audio et vidéo. Parmi ces multiples logiciels nous pouvons citer ceux que nous connaissons mieux pour les avoir utilisés. Il s’agit de Nooj qui est un bon concordancier et qui permet de faire des grammaires locales, Toolbox et Flex destinés à la conception de dictionnaires et à la description des langues naturelles. Ce panorama d’outils informatiques est loin d’être exhaustif, mais à l’avantage de les vulgariser et de guider les novices dans leur méthodologie de recherche. Dans le cadre de ce cours, nous avons retenu principalement le logiciel CLAN pour la transcription de l’analyse de nos données pour plusieurs raisons ; Premièrement, ce logiciel est retenu de façon consensuelle pour le traitement des données collectées dans plusieurs pays au compte du projet « Transferts d’apprentissage ». Les conventions de nommage des séquences sont les mêmes, ce qui facilite l’exploitation et le partage des données entre les chercheurs de ce projet. Deuxièmement, avant même notre inscription en thèse, nous avons bénéficié d’un stage de trois mois au laboratoire MoDyCo auprès de Christophe Parisse pour nous spécialiser dans sur cet outil au compte dudit projet. Ainsi avons-nous pu tester des codages théoriquement orientés. Troisièmement, ce logiciel est mieux adapté que les autres sus cités pour remplir les besoins des recherches que nous menons sur le bilinguisme et plus particulièrement l’alternance codique dans le cadre de l’interaction en classe. Ceci parce que non seulement il permet de mieux traiter à la fois les fichiers audio et vidéo de grande taille, mais aussi et surtout parce que nous avions testé avec succès le codage du logiciel en fonction de notre orientation théorique. Tous ces éléments concourent à la pertinence du choix que nous avions fait, de transcrire avec CLAN nos données primaires collectées dans un contexte bilingue au Burkina Faso. « De manière idéale, le choix d’un système de transcription ne devrait être fait que sur des critères d’efficacité ou de besoin de la recherche » (Parisse, Morgenstern, & others, 2010, p. 211). Conclusion On peut retenir que les outils informatiques pour les sciences du langage sont de deux types. Ceux qui sont utilisé pour la recherche basé sur les données textuelles et ceux qui sont utilisés dans le traitement des corpus oraux, voire multimédias. Nous avons essayé d’en énumérer quelques-uns à titre illustratif pour chaque type. Le langage XML tout comme la norme de balisage TEI sus-évoqués, sont utiles, quels que uploads/Science et Technologie/ cours-sur-les-outils-informatiques.pdf

  • 38
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager