L'ANALYSE DE DONNÉES TEXTUELLES AVEC LE LOGICIEL ALCESTE Daniel Bart Associatio
L'ANALYSE DE DONNÉES TEXTUELLES AVEC LE LOGICIEL ALCESTE Daniel Bart Association REDLCT | « Recherches en didactiques » 2011/2 N° 12 | pages 173 à 184 ISSN 2116-9683 ISBN 9791090290013 DOI 10.3917/rdid.012.0173 Article disponible en ligne à l'adresse : -------------------------------------------------------------------------------------------------------------------- https://www.cairn.info/revue-recherches-en-didactiques1-2011-2-page-173.htm -------------------------------------------------------------------------------------------------------------------- Distribution électronique Cairn.info pour Association REDLCT. © Association REDLCT. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit. Powered by TCPDF (www.tcpdf.org) © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) L'ANALYSE DE DONNÉES TEXTUELLES AVEC LE LOGICIEL ALCESTE Daniel Bart1 Université Charles-de-Gaulle – Lille 3 Équipe Théodile-CIREL (ÉA 4354) Depuis les années 1990, l'offre de logiciels d'analyse du discours s'est déve- loppée de manière importante et leur utilisation dans les démarches de recherche est croissante (Marchand, 1998). Tandis que certains logiciels, tels que Nvivo, proposent une assistance à l'analyse thématique en informatisant les opérations « classiques » de catégorisation, de classement, de dénombrement, d'autres logiciels constituent un véritable traitement des corpus de discours en réalisant des analyses lexicales (module Lexica du logiciel Sphinx), morphosyn- taxiques (HyperBase, Alceste, etc.) ou sémantiques (Tropes). Cet article a pour but de présenter l'un de ces logiciels : ALCESTE. Conçu par le chercheur Max Reinert dans les années 1980, ce dernier présentait initia- lement le nom ALCESTE comme l'acronyme de « Analyse Lexicale par Contexte d'un Ensemble de Segments de TExte ». Plus récemment, Reinert l'a décliné par « Analyse des Lexèmes Cooccurrents dans les Énoncés Simples d'un TExte » ou « Analyse des Lexèmes Cooccurrents dans un Ensemble de Segmen- tations du Texte Étudié ». Le logiciel ALCESTE se présente comme une méthodologie d'aide à l'étude et l'interprétation de corpus textuels : entretiens, 1. Je remercie Dominique Lahanier-Reuter pour ses commentaires et suggestions sur des versions antérieures de cet article. © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) réponses à une question ouverte, textes officiels, etc. Depuis 1986, ce logiciel est développé et commercialisé par la société IMAGE sous licence CNRS-université de Toulouse-Le Mirail. Aujourd'hui, cette société diffuse une version dite 2010 du logiciel qui permet de traiter des corpus en différentes langues (Français, Anglais, Allemand, Italien, Portugais, Espagnol), grâce à ses dictionnaires inté- grés. Dans une première partie de cet article, nous présenterons le cadre théo- rique dans lequel s'inscrit la conception du logiciel ainsi que ses visées. Puis nous exposerons les principaux traitements réalisés et les résultats qu'ils produi- sent. Avant de conclure sur l'intérêt et les limites d'Alceste, nous nous intéresserons aux modalités de construction des corpus à soumettre au logiciel. LES PRÉSUPPOSÉS THÉORIQUES ET MÉTHODOLOGIQUES DU LOGICIEL ALCESTE Reinert (1997) inscrit le développement de la méthodologie de recherche Alceste dans le courant de l'analyse des données développée par Benzécri (1973) et de la statistique textuelle de Lebart et Salem (1988). Cette méthodologie pro- pose néanmoins une approche spécifique de l'analyse des données textuelles cherchant moins à décrire l'utilisation des mots dans les discours, notamment leur fréquence, qu’à mettre en évidence la régularité de l'usage de certains mots et la conjonction de leurs apparitions dans des portions2 similaires de textes. Au moyen de procédures que nous détaillons plus loin, le logiciel réalise en effet un classement de ces segments de corpus textuels en fonction de la ressemblance ou de la dissemblance des unités qui les composent, afin de dégager des polari- tés dans l'usage du vocabulaire. Il convient de souligner ici que le fonctionnement du logiciel est indépendant du sens des mots et du discours qui constituent le corpus étudié. Pour Reinert (1997), ces polarités – au sens d'usages répétés de quelques mots identiques – dans le vocabulaire utilisé sont « une trace pertinente (du) point de vue (du sujet) : (le vocabulaire) est à la fois la trace d'un lieu référentiel et d'une activité cohérente du sujet-énonciateur. Nous appelons mondes lexi- caux, les traces les plus prégnantes de ces activités dans le lexique. ». L'étude de l'organisation des éléments d'un texte et des régularités du vocabulaire permet- trait donc au chercheur de mettre au jour, dans une certaine mesure, les mondes de pensée du locuteur. Ces « mondes lexicaux » sont plus particulièrement constitués par les classes de discours construites par le logiciel (listes de mots présentant des contextes d'énonciation comparables, voir infra). Toutefois, l'auteur du logiciel précise que ces classes de mots renvoient à des espaces de référence associés à des énoncés distincts et réunissent par conséquent dans un même ensemble différents « points de vue » et différents moments de l'activité du sujet. En particulier, lorsque le corpus étudié est constitué de discours pro- 2. Comme nous le précisons plus loin, les découpages de texte opérés automatiquement par le logiciel sont des énoncés de quelques lignes constitués de phrases ou parties de phrases d'environ 200 caractères. © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) duits par plusieurs locuteurs, les « mondes lexicaux » peuvent être construits à partir d'énoncés issus de ces différents énonciateurs. Enfin, Reinert (idem) alerte les utilisateurs de son logiciel sur le fait que la formalisation obtenue des « mondes lexicaux » est relativement rudimentaire et que ces derniers renvoient non seulement à l'activité créative du/des sujet (s) énonciateur (s) mais aussi aux représentations sociales, aux préconstruits et normes socioculturels ou aux habitus des groupes sociaux ou professionnels auxquels il (s) appartien(en) t. LES TRAITEMENTS DES DONNÉES TEXTUELLES RÉALISÉS PAR ALCESTE Alceste procède à un traitement des corpus textuels qui lui sont soumis se- lon un plan d'analyse en 5 étapes dont la durée varie selon la taille des textes (en général quelques minutes). La première étape, l'étape A, consiste tout d'abord à repérer les différentes Unités de Contexte Initiale (UCI) qui composent le cor- pus. Les UCI sont les divisions entre les différents documents du corpus que le chercheur peut introduire : différents entretiens d'une enquête, articles de presse, réponses à une question ouverte, etc. Un corpus peut néanmoins être constitué d'une unique UCI (un livre par exemple). Différents dictionnaires permettent alors au logiciel d'identifier les mots contenus dans le corpus en distinguant d'une part les mots-outils3 nécessaires à la construction syntaxique et d'autre part les mots-pleins (noms, verbes, adjectifs, certains adverbes). C'est uniquement à partir de la distribution de ce dernier type de mots qu'Alceste va conduire ses procédures de classification. Toutefois, ces dénombrements sont opérés sur les mots pleins réduits de leurs désinences grammaticales ou suffixes reconnus par le logiciel : on parlera donc plutôt de formes que de mots. Ainsi, les mots « éducatif », « éducation », « éducatrice » vont être rassemblés dans la même forme « educat+ion4 » dont la fréquence, somme des fréquences des mots « éducatif » etc., sera la seule prise en compte. Cette procédure de lemmatisation a pour objectif d'accroître la fréquence des formes et la force des liaisons statis- tiques impliquées par leurs cooccurrences. Cette réduction est toutefois discutable du point de vue sémantique. Sur cette question, le travail critique du chercheur est rendu possible par les rapports d'analyse du logiciel qui font état des formes ayant subi cette réduction. L'étape B de l'analyse constitue la principale étape de calcul. Le logiciel pro- cède tout d'abord au découpage du corpus en Unités de Contexte Élémentaires (UCE). Les UCE5 sont constituées d'une ou plusieurs lignes de texte consécu- tives (voir un exemple dans l'extrait 3 du rapport d'analyse infra). L'UCE est ici 3. Globalement les articles, prépositions, conjonctions, pronoms, les auxiliaires, certains verbes modaux, les marqueurs d'intensité, d'espace, de temps, etc. 4. Les procédures du logiciel comportent une opération de suppression des accents et des majuscules. 5. Elles sont définies par Alceste à partir d'un compromis entre les contraintes syntaxiques (la ponctuation) et statistiques (le nombre d'UCE pour obtenir un seuil fixé par Alceste en fonction de la taille du texte ou par l'analyste). © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) © Association REDLCT | Téléchargé le 22/12/2021 sur www.cairn.info par Ikram BOUZIKAR (IP: 102.50.244.13) considérée comme une unité statistique de base : l'objectif des calculs est de parvenir à un classement des UCE en fonction de la répartition des formes. Le logiciel élabore un tableau à double entrée croisant en colonne les formes analy- sées et en uploads/Management/ rdid-012-0173.pdf
Documents similaires










-
24
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 13, 2021
- Catégorie Management
- Langue French
- Taille du fichier 2.3602MB