MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et év
MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 1 - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel MEMOIRE DE MASTER 1 Enseignant : Jean Véronis Année universitaire : 2004 - 2005 MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 2 - SOMMAIRE INTRODUCTION p.4 CORRECTION AUTOMATIQUE ET TYPOLOGIE DES ERREURS I. La correction automatique 1. Aide à la rédaction et correction automatique 2. Les méthodes de correction automatique 3. Quelques logiciels existants 4. La correction automatique sous Word XP II. Typologies des erreurs d’orthographe 1. Utilité d’une typologie des erreurs 2. Les études en typologie orthographique p.6 p.6 p.6 p.9 p.11 p.15 p.22 p.22 p.22 RECUEIL ET TRAITEMENT DES DONNEES I. Recueil des données 1. Présentation du corpus 2. Quantification des erreurs 3. Constitution d’un corpus électronique II. Traitement des données 1. Extraire les erreurs 2. Fréquences des erreurs et altérations graphiques III. Classement des erreurs p.30 p.30 p.30 p.31 p.32 p.33 p.33 p.35 p.38 MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 3 - 1. Les problèmes de classement 2. Le classement réalisé à l’aide de la typologie p.38 p.41 EVALUATION DU LOGICIEL I. Méthodologie de l’évaluation 1. Les méthodes de mesure pour l’évaluation des correcteurs 2. Analyse hors contexte et analyse contextuelle II. Résultats 1. Les erreurs de segmentation 2. Les erreurs de phonétique 3. Les erreurs de substitution 4. Les erreurs de grammaire 5. Les erreurs d’orthographe lexicale 6. Cumul d’erreurs : lexique et grammaire 7. Les erreurs sur les signes diacritiques III. Bilan de l’évaluation 1. Résultat général 2. Les performances du logiciel 3. Les limites p.50 p.51 p.51 p.54 p.56 p.56 p.57 p.59 p.60 p.62 p.63 p.65 p.66 p.67 p.69 p.70 CONCLUSION p.74 BIBLIOGRAPHIE ET SITOGRAPHIE p.75 ANNEXES p.78 MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 4 - INTRODUCTION Le secteur des technologies de la langue et notamment celui de l’industrie des langues ne cesse d’évoluer proposant des outils de plus en plus perfectionnés. Aujourd’hui les progrès matériels et logiciels permettent aux machines de traiter directement la langue « de tous les jours ». Mêlant l’informatique et la linguistique, c’est un secteur dont les applications se retrouvent dans de nombreux domaines tels que l’enseignement des langues, la synthèse de la parole, la veille stratégique, la bureautique ou encore la gestion de l’information. Les exigences des utilisateurs en matière d’outils et d’applications permettant par exemple, d’écrire correctement, de rechercher plus facilement des informations sur Internet, de résumer ou de traduire un texte, sont de plus en plus importantes et représentent un enjeu à la fois économique et culturel. Dans le cadre de ce projet, nous avons choisi de nous intéresser, en particulier, à un domaine des technologies du langage : la correction automatique. En effet, de nombreux utilisateurs ont recours aux correcteurs orthographiques et grammaticaux qui permettent, depuis plusieurs années déjà, de détecter et de corriger les erreurs. Cependant, malgré d’importants progrès, ces outils ne corrigent pas toutes les erreurs, et les subtilités de notre langue leur échappent encore. Il est important de pouvoir évaluer la portée de ces outils et c’est ce que nous proposons de faire dans ce projet. Tous les logiciels de traitement de texte récents possèdent un correcteur orthographique. Le rôle de cet outil est de vérifier l’orthographe dans un document : il détecte les erreurs commises par l’utilisateur et formule des propositions de correction adéquates pour remplacer les formes erronées. En ce sens, nous pouvons considérer qu’il s’agit d’un outil précieux d’aide à l’écriture puisqu’il améliore le contenu des documents. Mais d’un point de vue pédagogique, les correcteurs orthographiques peuvent ils être confiés à des apprenants qui ne maîtrisent pas encore parfaitement l’orthographe et la grammaire ? MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 5 - Il semble donc primordial d’évaluer les logiciels permettant la détection et la correction des erreurs, surtout lorsqu’ils sont utilisés par des apprenants. Dans le cadre de ce projet, nous proposons d’évaluer un correcteur orthographique en particulier, à savoir le correcteur intégré au logiciel de traitement de texte Word XP. A partir d’un corpus informatisé de copies d’élèves, nous évaluerons les performances du correcteur en matière de détection-correction des erreurs. Notre approche sera double car nous ferons le lien entre deux domaines : d’une part, le domaine de la correction automatique et d’autre part, les études qui ont mené à l’élaboration de typologies des erreurs d’orthographe. Dans une première partie, nous aborderons le domaine de la correction automatique en décrivant les différents types de correcteurs, les méthodes de correction automatique ainsi que les outils actuellement sur le marché. Ensuite, nous décrirons plus précisément le correcteur intégré à Word XP qui va constituer notre objet d’étude. Enfin, pour terminer cette première partie, nous évoquerons quelques études en typologie orthographique et nous présenterons la grille des erreurs qui constituera notre instrument d’analyse dans ce projet. Dans une deuxième partie, nous décrirons le travail réalisé sur un corpus de copies d’élèves et les différentes étapes : recueil des données, informatisation du corpus, quantification des erreurs, création de programmes permettant d’extraire les erreurs du corpus. Cette partie sera également consacrée au classement des erreurs recueillies et aux problèmes posés par ce classement. Enfin, en dernier lieu, nous proposerons une évaluation du correcteur intégré à Word XP, qui se basera sur le classement préalablement réalisé. Ainsi, pour chaque catégorie d’erreur recensée, nous évaluerons les performances du correcteur et sa capacité à détecter et à corriger les erreurs. Les résultats obtenus devraient nous permettre de cerner plus facilement le fonctionnement et les limites du correcteur. MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 6 - CORRECTION AUTOMATIQUE ET TYPOLOGIE DES ERREURS Les recherches consacrées à la relation entre l’orthographe et l’informatique étant peu nombreuses, il nous a paru nécessaire dans cette étude, de traiter les deux domaines de façon distincte : d’une part le domaine de la correction automatique et d’autre part les études qui ont abouti à l’élaboration de typologies des erreurs. I. La correction automatique Nous allons débuter cette première partie par un bref état de l’art concernant la correction automatique. Notre plan s’efforcera d’aller du général au particulier : nous commencerons par présenter les différents outils d’aide à la rédaction en essayant du mieux possible de décrire la manière dont ils fonctionnent. Puis nous nous intéresserons plus particulièrement à un outil : le correcteur orthographique et grammatical. Enfin, nous décrirons le correcteur intégré à Word XP qui constituera notre objet d’étude dans le cadre de ce projet. 1. Aide à la rédaction et correction automatique L’aide à la rédaction recouvre un ensemble riche et varié d’outils et d’applications qui interviennent dans les tâches de planification et de révision d’un texte. Les outils élémentaires de l’aide à la rédaction renvoient le plus souvent aux correcteurs orthographiques et grammaticaux ainsi qu’aux dictionnaires de synonymes. Mais, à l’heure actuelle, ces outils ont tendance à évoluer et se diversifient de plus en plus. Nous pouvons ainsi recenser plusieurs types de correcteurs qui agissent à différents niveaux : niveau du mot, de la phrase ou du texte. Sous le terme générique de « correcteurs » sont donc rassemblés des logiciels MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 7 - qui ont pour vocation de déjouer à différents niveaux les pièges de l’écriture. On en distingue en général cinq types1, présentés à l’aide du schéma suivant : ⇒ Le dictionnaire de synonymes Le dictionnaire de synonymes constitue un outil d’aide à la rédaction ; il se présente sous la forme d’une base de données indexée. Son rôle est de fournir, par le biais de cette base de données, une liste de mots ayant un sens équivalent ou proche du terme sélectionné. En ce sens, il n’y a pas de grande différence entre un dictionnaire de synonymes sur ordinateur et un dictionnaire de synonymes sur papier puisque le rôle est le même : fournir un ensemble de mots ayant un sens équivalent. Dans le cas d’un mot polysémique, l’utilisateur est sollicité afin de définir le trait sémantique particulier du mot. Par exemple, le mot terme reçoit plusieurs traits sémantiques : borne, date, fin, délai, expression, relation. A chacun de ces traits, est associée une liste de mots correspondants. Ainsi, le trait sémantique expression renvoie une liste de mots ayant un sens équivalent ou proche : mot, formule, locution, terminaison. 1 Article de F.Berten : http://users.skynet.be/ameurant/francinfo/correcteur/correcteur.html Dictionnaire de synonymes Correcteur orthographique, grammatical Correcteur syntaxique Correcteur sémantique Correcteur stylistique Outils d’aide à la rédaction MARIE PIU - CORRECTION ORTHOGRAPHIQUE AUTOMATISEE : Typologie des erreurs et évaluation d’un logiciel - 8 - ⇒ Le correcteur orthographique Autre outil qui va retenir notre attention dans les pages qui vont suivre, le correcteur orthographique et grammatical. Le rôle du correcteur orthographique est de vérifier l’orthographe uploads/Management/ correction-orthographique-automatisee-typologie-des-erreurs-et-evaluation-d-x27-un-logiciel.pdf
Documents similaires
-
18
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 06, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.5167MB