HAL Id: tel-00461579 https://tel.archives-ouvertes.fr/tel-00461579 Submitted on

HAL Id: tel-00461579 https://tel.archives-ouvertes.fr/tel-00461579 Submitted on 4 Mar 2010 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Analyse discursive pour le reperage automatique de segments obsolescents dans des documents encyclopediques. Marion Laignelet To cite this version: Marion Laignelet. Analyse discursive pour le reperage automatique de segments obsolescents dans des documents encyclopediques.. Linguistique. Université Toulouse le Mirail - Toulouse II, 2009. Français. ￿tel-00461579￿ THÈSE En vue de l’obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par l’université Toulouse II-Le Mirail Discipline : Linguistique - Informatique Présentée et soutenue par Marion LAIGNELET Le 25 septembre 2009 Titre : Analyse discursive pour le repérage automatique de segments obsolescents dans des documents encyclopédiques. JURY : Liesbeth DEGAND rapporteure Université de Louvain, Belgique Patrice ENJALBERT rapporteur Université de Caen Agnès TUTIN examinatrice Université de Grenoble 3 Claude DE LOUPY examinateur Laboratoire Syllabs, Paris Marie-Paule PÉRY-WOODLEY directrice Université de Toulouse 2 - Le Mirail Ludovic TANGUY encadrant Université de Toulouse 2 - Le Mirail École doctorale : CLESCO Unité de recherche : Laboratoire CLLE-ERSS Laboratoire Cognition Langues Langages Ergonomie Équipe de Recherche en Syntaxe et Sémantique 2 Cette création de Laignelet Marion est mise à disposition selon les termes de la licence Creative Commons Paternité-Pas d’Utilisation Commerciale-Partage des Conditions Initiales à l’Identique 2.0 France disponible en ligne http:// creativecommons.org/licenses/by-nc-sa/2.0/fr/ ou par courrier postal à Creative Commons, 171 Second Street, Suite 300, San Francisco, Califor- nia 94105, USA. L’ensemble de la thèse ainsi que les fichiers sources sont disponibles à l’adresse suivante : http://marion.laignelet.free.fr. Concernant les ressources et outils informatiques créés, ils sont également disponibles à l’adresse sus-mentionnée, sous licence LGPL (http://www.linux-france.org/article/these/licence/lgpl/ lgpl_monoblock.html). i ii Résumé La question de la mise à jour des documents se pose dans de nombreux do- maines. Elle est centrale dans le domaine de l’édition encyclopédique : les ou- vrages publiés doivent être continuellement vérifiés afin de ne pas mettre en avant des informations fausses ou altérées par le temps. Dans ce travail, nous proposons la mise en œuvre d’un prototype d’aide à la mise à jour : l’objectif visé est le repérage automatique de zones textuelles dans lesquelles l’information est potentiellement obsolescente. Pour y répondre, nous proposons la prise en compte d’indices linguistiques et discursifs variés et faisant appel à des niveaux d’analyses différents. L’obso- lescence étant un phénomène non linguistique pour lequel il n’existe pas d’outil rhétorique dédié, notre hypothèse est qu’il faut considérer les indices linguistiques et discursifs en termes de complémentarité, de combinaisons. Sur un corpus annoté manuellement par des experts, nous projetons un repérage automatique d’un grand nombre d’indices linguistiques, discursifs et structurels. Un système d’apprentissage automatique est ensuite mis en place afin de faire émerger les configurations d’indices pertinentes dans les segments obsolescents caractérisés par les experts. Notre double finalité est remplie : nous proposons une description fine de l’ob- solescence dans notre corpus de textes encyclopédiques ainsi qu’un prototype logi- ciel d’aide à la mise à jour des textes. Une double évaluation a été menée : par validation croisée sur le corpus d’ap- prentissage et par les experts sur un corpus de test. Les résultats sont encourageants. Ils nous amènent à faire évoluer la définition du segment d’obsolescence, sur la base des « découvertes » émergeant des corpus et dans l’interaction avec les be- soins des experts concernant l’aide à la mise à jour. Ils montrent également les limites des annotations automatiques des indices linguistiques et discursifs. Enfin, la reproductibilité de notre système doit être évaluée ainsi que la perti- nence et la réutilisabilité du modèle de représentation des données présenté. iii iv Abstract The question of document updating arises in many areas. It is central to the field of encyclopedia publishing : encyclopedias must be constantly checked in order not to put forward wrong or time-altered information. In this study, we describe the implementation of a prototype of an aid to updating. Its aims is to automatically locate zones of text in which information might be obsolescent. The method we propose takes into account various linguistic and discursive cues calling on different levels of analysis. As obsolescence is a non-linguistic phenomenon for which no specific rhetorical tool exists, our hypothesis is that linguistic and discursive cues must be considered in terms of complementarity and combinations. Our corpus is first manually annotated by experts for zones of obsolescence. We then apply automatic tagging of a large number of linguistic, discursive and structural cues onto the annotated corpus. A machine learning system is then im- plemented to bring out relevant cue configurations in the obsolescent segments characterized by the experts. Both our objectives have been achieved : we propose a detailed description of obsolescence in our corpus of encyclopaedic texts as well as a prototype aid to updating. A double evaluation was carried out : by cross validation on the corpus used for machine learning and by experts on a test corpus. Results are encouraging. They lead us to an evolution of the definition of obsolescent segments, first, on the basis of the “discoveries” emerging from our corpora and also through interaction with the needs of the experts with respect to an aid to updating. The results also show limits in the automatic tagging of the linguistic and discursive cues. Finally, the reproducibility of our system must be evaluated as well as the rel- evance and reusability of the model of data representation. v vi Remerciements À mon jury : Liesbeth Degand, Patrice Enjalbert, Agnès Tutin, Claude de Loupy. À Marie-Paule Péry-Woodley qui m’a fait confiance toutes ces années, et à Ludovic Tanguy qui a fait preuve de tant de patience. À Didier Bourigault et Eric Marson, sans qui ce projet n’aurait probablement pas vu le jour. À Frédéric Gardes qui au quotidien m’a encouragée, soutenue et toujours poussée vers l’avant, qui m’a patiemment aidé à comprendre les statistiques et la modélisa- tion. À François Rioult qui m’a donné les moyens et la technique en apprentissage automatique pour finaliser mon projet. À Philippe Pleuvret pour sa confiance et ses conseils en statistiques. À l’équipe du département des Encyclopédies Larousse : Yves Garnier, Jacques Florent, Marion Pépin, Mady Vinciguerra, Philippe Lacrouts, Line Karoubi et Pierre Chiesa. À tous ceux qui ont eu le courage de relire les chapitres de cette thèse et de m’apporter de si bons conseils : Frédérik Bilhaut, Andrée Borillo, Cécile Fabre, Mai Ho-Dac, Marie-Paule Jacques, Franck Sajous. À Christine Pernet, à l’écoute de mes répétitions de soutenance. À l’ERSS et plus largement à CLLE-ERSS et CLLE-LTC : Anne Le Draoulec, Nabil Hathout, Myriam Bras, Fabio Montermini, Jean-François Bonnefon, Michel Aurnague, Anne Condamine, Jesse Tseng, Anna Kupsc, Pascale Vergely, Anne Przewozny, Josette Rebeyrolles, Jean-Michel Tarrier, Philippe Muller, Laure Sarda, Marianne Vergez, Clémentine Adam, Julien Eychenne, Aurélie Picton, Anne-Lise Coquillon, Béatrice-Akissi Boutin, Nathalie Dehaut, Buddy Dirat, Aurélie Guer- rero, Edith Galy, Christophe Pimm, Stéphanie Lopez, Sylvain Navarro, Kuna Mvogo, Annique Smeding, Maria Fohlin. À toutes les rencontres faites ici et là au détour d’une conférence, d’un col- loque, d’un projet : Antoine Widlöcher, Marie Chagnoux, Stéphane Ferrari, Yann Mathet, Guy Lapalme, Nathalie Aussenac-Gilles, Mauro Gaio, Aïssa Derrouaz, Amanda Bouffier, Thierry Fontenelle. À Corine Prunier, Laurence Lamy, Nathalie Moulic, Corine Ratier, Bruno Chenu et Geneviève Usache. À ma famille, Fred, Lena et Asalais qui m’ont permis de penser à autre chose vii viii qu’à la linguistique et à l’informatique (jusqu’à 18 couches par jour pendant 6 mois, ca aide pour penser à autre chose...). À mon père pour ses remarques et re-lectures, son implication dans mes travaux. À ma mère pour m’avoir appris à toujours aller de l’avant, pour sa tendresse et son dévouement. À mon pépé pour tout son amour. Et une douce pensée pour ma Granny qui continue chaque jour à veiller sur moi. À Anne et Charles, ma chère fratrie, toujours encourageante et si fière de moi. À Tatalaso, ma belle-soeur survoltée, à Cathy, belle maman à l’écoute et à Michel, beau-papa dynamique. À tous mes amis : Anne-Marie et Julien, Benoît et Audrey, Gilles, Aurélie, Virginie, Caroline, Sandra et Benoît, et toutes les mamans (et futures mamans) qui m’ont aidée et soutenue. Table des matières Introduction 1 De l’homme à la machine : la mise à jour des encyclopédies . . . 1 L’obsolescence : quelle réalité pour l’édition ? . . . . . . . . . . . 3 Le segment d’obsolescence . . . . . . . . . . . . . . . . . . . . . 4 Travaux en lien avec la question de la mise à jour de l’information 6 Hypothèses et méthodologie . . . . . . uploads/Science et Technologie/ theselaigneletvf-ok.pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager