HAL Id: tel-01257640 https://tel.archives-ouvertes.fr/tel-01257640 Submitted on

HAL Id: tel-01257640 https://tel.archives-ouvertes.fr/tel-01257640 Submitted on 18 Jan 2016 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Utilisation de méthodes linguistiques pour la détection et la correction automatisées d’erreurs produites par des francophones écrivant en anglais Marie Garnier To cite this version: Marie Garnier. Utilisation de méthodes linguistiques pour la détection et la correction automatisées d’erreurs produites par des francophones écrivant en anglais. Linguistique. Université Toulouse le Mirail - Toulouse II, 2014. Français. ￿NNT : 2014TOU20040￿. ￿tel-01257640￿ THÈSE en vue de l'obtention du DOCTORAT DE L'UNIVERSITE DE TOULOUSE Délivré par l'Université Toulouse 2 École doctorale : ALLPH@ Spécialité : Anglais Présentée et soutenue par Marie GARNIER Le 19 septembre 2014 Utilisation de méthodes linguistiques pour la détection et la correction automatisées d'erreurs produites par des francophones écrivant en anglais MEMBRES DU JURY Mme Alda MARI M. Jean-Marie MERLE Mme Blandine PENNEC Mme Cornelia TSCHICHOLD M. Dennis PHILPS M. Patrick SAINT-DIZIER Directrice de recherches (Linguistique), École Nationale Supérieure, Paris (Rapporteur) Professeur (Linguistique), Université de Nice-Sophia Antipolis (Rapporteur) Maître de conférences (Linguistique), Université Toulouse 2 Senior Lecturer (Linguistique appliquée), Swansea University Professeur (Linguistique), Université Toulouse 2 (Directeur de thèse) Directeur de recherches (Informatique), Université Toulouse 3 (Directeur de thèse) À mes grands-parents Résumé Le point de départ de cette recherche est le constat des difficultés persistantes rencontrées par les francophones de niveau intermédiaire à avancé lors de la production de textes en anglais, dans des contextes personnels ou professionnels. Les premiers outils utilisés pour remédier à ces erreurs, les correcteurs grammaticaux automatiques, ne prennent pas en compte de nombreuses erreurs produites par les francophones utilisant l'anglais, notamment car ces correcteurs sont rarement adaptés à un public ayant l'anglais comme L2. Nous proposons d'identifier précisément les difficultés rencontrées par ce public cible à partir du relevé des erreurs dans un corpus adapté, et d'élaborer une modélisation linguistique des erreurs et des corrections à apporter. Cette modélisation est fondée sur une analyse linguistique approfondie des phénomènes concernés, à partir d'indications grammaticales, d'études de corpus, et de l'analyse des segments erronés. La validité de l'utilisation de méthodes linguistiques est établie par l'implémentation informatique des règles de détection et de correction, suivie de l'évaluation des résultats de l'application de ces règles sur des corpus d'anglais L1 et L2. Les deux types d'erreur concernés sont le placement des adverbes, en particulier les adverbes de manière et l'adverbe also, et l'utilisation de structures N+N. Ces deux phénomènes ont la particularité d'interroger les normes de grammaticalité et d'acceptabilité. Ces types sont sélectionnés par le biais de l'application de la méthodologie de l'analyse des erreurs à notre recherche. Un corpus d'anglais L2 est constitué à partir de productions représentatives de l'utilisation de l'anglais par les francophones. Les segments erronés y sont relevés manuellement, puis sont classés selon un système reposant sur des catégories linguistiques. Les erreurs de placement des adverbes et d'utilisation des structures N+N sont deux des six types les plus fréquemment relevés dans ce corpus. La détection et la correction automatisées reposent sur la modélisation linguistique des schémas d'erreurs et de correction. Cette modélisation aboutit à la création de 11 schémas au total pour les adverbes, et de cinq schémas pour les erreurs N+N, certains schémas incluant plusieurs propositions de correction. Les règles de détection et de correction utilisent des patrons de détection associés à des instructions de réécriture, et sont implémentées en Dislog dans la plateforme <TextCoop>, un analyseur de discours programmé en Prolog. Les règles sont évaluées sur des corpus d'anglais L1 et L2. Pour le corpus d'anglais L2, les taux de précision et de rappel atteignent 100 % et 67 % pour also, et 95 % et 91 % pour les adverbes de manière. L'évaluation des règles de correction des erreurs N+N sur le corpus d'anglais L1 génère un nombre de faux positifs important. De plus, pour être détectées et corrigées de manière appropriée, ces erreurs requièrent des recherches approfondies en sémantique lexicale. Ces deux facteurs repoussent leur évaluation à une période ultérieure. Le traitement des erreurs dans cette recherche inclut également l'élaboration de messages correctifs, dans l'objectif de permettre la prise d'autonomie des personnes utilisatrices du système. Le canevas proposé repose sur cinq étapes modulables en fonction du public cible et du contexte d'utilisation. Ces étapes incluent le marquage de l'erreur, le diagnostic d'erreur, la rétroaction métalinguistique, les instructions de remédiation et l'illustration. Mots-clés : linguistique de l'anglais, correction grammaticale automatisée, adverbes anglais, structures N+N, acquisition des langues secondes, enseignement des langues assisté par ordinateur, traitement automatisé des langues Abstract The starting point of this research is the observation that French speakers writing in English in personal or professional contexts still encounter grammatical difficulties, even at intermediate to advanced levels. The first tools they can reach for to correct those errors, automatic grammar checkers, do not offer corrections for a large number of the errors produced by French-speaking users of English, especially because those tools are rarely designed for L2 users. We propose to identify the difficulties encountered by these speakers through the detection of errors in a representative corpus, and to create a linguistic model of errors and corrections. The model is the result of the thorough linguistic analysis of the phenomena at stake, based on grammatical information available in reference grammars, corpus studies, and the analysis of erroneous segments. The validity of the use of linguistic methods is established through the implementation of detection and correction rules in a functional platform, followed by the evaluation of the results of the application of those rules on L1 and L2 English corpora. The two error types this research focuses on are adverb placement, especially for manner adverbs and the adverb also, and the use of N+N structures. These phenomena both question the factors leading to grammaticality and acceptability judgments. Error analysis is used to select those error types. A corpus of L2 English is compiled using productions that are representative of the use of English by French speakers. Erroneous segments are detected manually and classified using a system based on linguistic categories. Adverb placement errors and errors in the use of N+N structures are two of the six most frequent types in our corpus. The automatic detection and correction of errors are based on the linguistic modeling of error and correction schemas. The use of this method results in the creation of 11 schemas in total for adverbs, and five schemas for N+N structures. Some schemas include several correction propositions. Detection and correction rules rely on detection patterns and rewriting instructions, and are implemented in Dislog in the <TextCoop> platform, a Prolog-based discourse analyzer. Rules are evaluated on L1 English and L2 English corpora. For the L2 English corpus, precision and recall rates reach 100 % and 67 % for also, and 95 % and 91 % for manner adverbs. The evaluation shows that the rules for N+N errors generate a high number of false positives. Additionally, these errors require thorough research in lexical semantics to be adequately detected and corrected. These two factors result in their evaluation being postponed to a future stage in this research. The processing of errors in this research also includes the creation of corrective feedback messages, with the objective of allowing system users to improve their autonomy. We propose a five-step plan, which can be adapted to the needs of the user and the context of use. The plan includes error marking, error diagnosis, metalinguistic feedback, directions for remediation, and illustrations. Keywords : English linguistics, automatic grammar checking, English adverbs, N+N structures, second language acquisition, computer-assisted language learning, natural language processing Table des matières Résumé _________________________________________________________________ 7 Abstract _________________________________________________________________ 8 Table des matières ________________________________________________________ 9 Liste des tableaux ________________________________________________________ 14 Liste des abréviations _____________________________________________________ 15 Remerciements __________________________________________________________ 16 Introduction générale _______________________________________________ 17 Exposé de la problématique ______________________________________ 19 Délimitation du cadre pratique ____________________________________ 21 Présentation des étapes de la recherche ____________________________ 25 Organisation de la thèse _________________________________________ 27 Chapitre 1 L'analyse des erreurs appliquée à la correction automatisée : Éléments théoriques et méthodologiques ______________________________________ 31 Introduction ___________________________________________________ 33 1.1 L'analyse des erreurs, un héritage de l'étude de l'acquisition des langues secondes __________________________________________________________ 34 1.1.1 Une méthode de recueil de données _______________________________ 36 a. Émergence, objectifs et limites de l'analyse des erreurs ______________ 36 b. L'analyse des erreurs en cinq étapes _____________________________ 38 Constitution d'un corpus de productions d'apprenants _____________________________ 39 Identification des erreurs ____________________________________________________ 40 Description des erreurs _____________________________________________________ 40 Explication des erreurs _____________________________________________________ 42 Évaluation des erreurs _____________________________________________________ 43 1.1.2 Qu'est-ce qu'une erreur ? ________________________________________ 46 a. Grammaticalité et acceptabilité __________________________________ 46 b. Compétence et performance ___________________________________ 48 c. La visibilité des erreurs ________________________________________ 51 uploads/Litterature/ marie-garnier-pdf.pdf

  • 37
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager