État d’avancement de thèse: 1ère année Recherche d’informations sur le Web pour

État d’avancement de thèse: 1ère année Recherche d’informations sur le Web pour la validation puis le peuplement de nouvelles bases de données Vincent Bouvier *,** *Laboratoire des Sciences de l’Information et des Systèmes Domaine Universitaire de Saint-Jérôme Avenue Escadrille Normandie-Niemen 13397 MARSEILLE CEDEX 20 FRANCE {prenom.nom}@lsis.org **Kware Le Mercure A, 565 rue Berthelot 13851 Aix-En-Provence Cedex 3 FRANCE {prenom.nom}@kware.fr RÉSUMÉ. Ce document a pour but de présenter les différents travaux effectués durant cette pre- mière année de thèse. Un état de l’art puis les différentes contributions scientifiques sont pré- sentées. Les perspectives pour la suite de la thèse sont ensuite annoncées. ABSTRACT. This document is aimed to show the researches done during the first thesis year. A state-of-the-art and an abstract of the different submissions are detailed just before giving perspectives for future works. MOTS-CLÉS : recherche et extraction d’information, temporalité, expansion de requête, entité nommées KEYWORDS: information retrieval, information extraction, temporality, query expansion, named entities V. Bouvier 1. Introduction Cet article a pour but faire un point sur ce qui a été abordé durant la première an- née de thèse qui a débuté en Janvier 2012. Cette thèse est le fruit d’une collaboration entre le laboratoire du LSIS de Marseille et l’entreprise Kware (se dit K-ware). Cette thèse est encadrée par Patrice BELLOT et est supervisée dans l’entreprise par Michel BENOIT. L’entreprise Kware travaillant dans le domaine de la Recherche d’Informa- tion (RI), domaine dans lequel M. Bellot est reconnu pour ses différents travaux dans l’expansion de requêtes, ou encore sur la classification de documents retrouvé avec un système de RI. Il est également très présent sur des sujets qui relève du Traitement Au- tomatique des Langues (TAL), et notamment dans le cadre de campagnes d’évaluation comme CLEF (Cross Language Evaluation Forum) dans la tâche Question Réponse . Il est donc tout naturel que la thèse présentée dans ce document soit également un sujet qui relève de la RI. Dans cette thèse, nous travaillons à la fois sur la notion d’implication textuelle et la recherche d’informations sur le Web. Il faudra pour cela trouver des approches nouvelles permettant de retrouver, sur le Web, des textes qui ont permis de peupler des bases de données. Il s’agira aussi de trouver de nouveaux textes pour alimenter la base de données en question. Cette tâche peut s’apparenter à une autre tâche ad hoc de RI si elle n’ajoutait pas la notion de temporalité. En effet, il faudra pouvoir vérifier la véracité des données concernant une entité à un instant t. Il faudra aussi être capable de mettre à jours les données lorsque de nouvelles informations apparaissent sur le Web. Nous devons pour cela déterminer : – quelle(s) écriture(s) de requêtes permet(tent) d’obtenir le meilleur ensemble de pages Web pour retrouver les informations contenues dans la base de données ; – une méthode permettant d’identifier, à l’intérieur des pages Web, les zone infor- mationnelles les plus pertinentes (Carlson et al., 2008, Kopliku et al., 2011) ; – une méthode permettant d’établir, et d’estimer, le lien entre les informations contenues dans la page et les informations de la base de données. Le département de recherche et développement de l’entreprise Kware réalise des études dans le domaine de la RI et notamment pour un organisme renommé dans le domaine du marketing. Cet organisme fournit un ensemble de données sur différents types de produits vendus à travers le monde. Ce corpus nous permet d’évaluer nos résultats sur des données industrielles. Il contient des libellés de produits qui sont en réalité un ensemble de mots qui caractérisent des produits (par ex. une catégorie, la marque, le modèle, des caractéristiques...). Nous utilisons (pour le moment) dans cette étude uniquement les libellés qui ne caractérisent qu’un seul produit à la fois. L’idée c’est de retrouver, à l’aide du web, des informations sur les produits en questions pour ensuite les extraire et les structurer. Cette problématique industrielle s’inscrit donc parfaitement dans la problématique posée dans cette thèse avec les différentes phases que l’on peut retrouver comme le Short Title pré-traitement des requêtes, la recherche d’information, le filtrage et l’extraction d’in- formation. La suite de cette article est composée d’un état de l’art orienté sur le premier et le second point des différentes étapes de cette thèse. Il est ensuite suivi d’une partie traitant des différentes contributions scientifiques qui ont été apportées jusqu’à aujour- d’hui. Enfin l’article se terminera avec une conclusion et les perspectives de travaux à venir. 2. État de l’art Dans le domaine de la RI et de l’extraction d’information beaucoup de travaux ce sont focalisés sur la population de base de données à partir du Web. Les modèles de RI "classiques" définissent l’importance d’une information par rapport à une re- quête en utilisant des mesures tel que le TF.IDF, OKAPI BM25. Celles-ci déterminent l’importance d’un document en fonction de l’apparition des termes de la requête dans celui-ci et de la rareté de ce terme dans une collection de documents. Cependant ces méthodes ne permettent pas de vérifier si l’information délivrée par le document est vrai, ou, si la source du document est de confiance. Certaines approches dérivées du PageRank (Page et al., 1999) utilisent des notions de "marche aléatoire" pour estimer les probabilités d’obtenir un document en question en fonction des hyperliens parcou- rus par un graphe (Diligenti et al., 2002). Cependant nombre de ces méthodes sont alors insuffisantes dans certains cas (informations crédibles mais peu diffusées ou par un petit nombre seulement, stratégies commerciales faussant l’estimation de la popu- larité...). D’autres systèmes ont plutôt tenté de mesurer le crédibilité globale d’un site (Balakrishnan et al., 2011) pouvant ainsi obtenir plus de documents pertinents. Dans le cadre de la tâche question answering (QA) de la campagne d’évalua- tion Cross-Language Evaluation Forum (CLEF), de nouveaux travaux sur l’évalua- tion permettant de valider ou d’invalider une information (Glöckner, 2007, Peñas et al., 2008, Rodrigo et al., 2009) montrent qu’il est tout à fait possible d’améliorer les réponses apportées par un système classique de QA. À partir de 2009, une nouvelle tâche (RTE5) a été introduite dans la campagne d’évaluation Text Analysis Confe- rence (TAC) qui consistait à retrouver, dans les textes, les phrases qui permettent de déduire la validité d’une phrase proposée comme candidate à faire partie d’un résumé des documents (Bentivogli et al., 2011). L’année suivante, ce sont les systèmes de peuplement de bases de connaissances qui ont été testés puisqu’il s’agissait alors de retrouver les phrases qui permettent de justifier des informations précises (par exemple la nationalité d’une personne). Les bases de connaissances comme Wikipedia, sont des ressources très utilisées notamment dans les travaux relatifs aux entité nommées. L’engouement a été renforcé par les différentes campagnes d’évaluations TAC dans la tâche “Knowledge Base Population" (KBP) et la Text REtrieval Conference (TREC) avec la tâche “Know- ledge Base Acceleration" (KBA). Ces deux tâches sont complémentaires. La première V. Bouvier consiste à lier une entité nommée apparaissant dans un document issue du web avec un noeud d’une base de connaissance lorsque cela est possible. La tâche KBA se concentre elle sur la mise à jour d’informations concernant une entité en observant un flux de documents (apparition de nouveau document sur une ligne temporelle). Les participants doivent essayer de détecter, sur ce flux de documents, ceux qui sont re- latifs à un ensemble d’entités données. Il faut par ailleurs, être capable de déterminer que le document trouver à de l’importance pour l’entité de part le contenu informatif qu’il véhicule. KBA est une tâche récente qui a commencé en 2012. Elle pose le pro- blème suivant : dans les bases de connaissance comme Wikipedia, le nombre d’entités est beaucoup plus grand que le nombre de contributeurs. Ceci se répercute alors sur le temps médian de latence qui est de 356 jours (Frank et al., 2012). Le World Wide Web (WWW) constitue une base phénoménale de documents, tel- lement immense qu’il est parfois difficile de trouver des informations précises sur un sujet particulier. Les systèmes de RI du web, les moteurs de recherche, sont des systèmes qui se base sur la recherche par mots clés : les requêtes. Lorsque cette der- nière est bien formulée et que celle-ci ne contient pas de mots qui soient ambigüe les moteurs de recherche actuels permettent généralement de trouver l’information recherchée. C’est une tout autre histoire pour les requêtes qui contiennent des mots mal orthographiées, ambigües, ou tout simplement que le besoin est mal formulé. Des méthodes dites d’expansion de requêtes ont pour but de reformuler une requête en ajoutant, supprimant ou modifiant des mots. Il a souvent été vue que l’expansion de requête tant à améliorer les résultats de manière assez significative (Lüke et al., 2012). Parmi elle on retrouve des méthodes qui font appelle à des bases de connais- sances comme WordNET, des dictionnaires, des ontologies (Mihov et al., 2004, Ba- rathi et al., 2010, Klyuev et al., 2011). Ces méthodes bien qu’offrant globalement de bonnes performances souffrent d’une complète dépendance à ces ressources linguis- tiques. Ces ressources sont un frein considérable lorsque l’on uploads/s1/ etat-d-x27-avancement-de-these-1-annee.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jui 09, 2021
  • Catégorie Administration
  • Langue French
  • Taille du fichier 0.1432MB