See discussions, stats, and author profiles for this publication at: https://ww
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/293814252 Approches d'analyse distributionnelle pour améliorer la désambiguïsation sémantique Conference Paper · June 2016 CITATIONS 4 READS 627 2 authors: Some of the authors of this publication are also working on these related projects: Reading Aids to leverage Document Accessibility for Children with Dyslexia (ANR project, 2016-2020) View project ALLuSiF View project Mokhtar Boumedyen Billami Laboratoire d’Informatique Fondamentale de Marseille 11 PUBLICATIONS 49 CITATIONS SEE PROFILE Nuria Gala Aix-Marseille Université 63 PUBLICATIONS 302 CITATIONS SEE PROFILE All content following this page was uploaded by Nuria Gala on 10 February 2016. The user has requested enhancement of the downloaded file. JADT 2016 : 13ème Journées internationales d’Analyse statistique des Données Textuelles Approches d’analyse distributionnelle pour améliorer la désambiguïsation sémantique Mokhtar Boumedyen Billami1, Núria Gala1 1Aix-Marseille Université, LIF UMR 7279, Marseille – France Abstract Word sense disambiguation (WSD) improves many Natural Language Processing (NLP) applications such as Information Retrieval, Machine Translation or Lexical Simplification. WSD is the ability of determining a word sense among different ones within a polysemic lexical unit taking into account the context. The most straightforward approach uses a semantic proximity measure between the word sense candidates of the target word and those of its context. Such a method very easily entails a combinatorial explosion. In this paper, we propose two methods based on distributional analysis which enable to reduce the exponential complexity without losing the coherence. We present a comparison between the selection of distributional neighbors and the linearly nearest neighbors. The figures obtained show that selecting distributional neighbors leads to better results. Résumé La désambiguïsation sémantique permet d’améliorer de nombreuses applications en traitement automatique des langues (TAL) comme la recherche d’information, la traduction automatique ou la simplification lexicale de textes. Elle consiste à choisir le sens des unités lexicales polysémiques dans un texte et s’effectue en tenant compte du contexte. L’approche la plus directe consiste à estimer la proximité sémantique entre chaque sens candidat et les sens des mots du contexte. Cette méthode engendre rapidement une explosion combinatoire. Dans cet article, nous proposons deux approches à base d’analyse distributionnelle permettant de réduire la complexité exponentielle et de ne pas perdre de la cohérence au niveau de la désambiguïsation, cela en sélectionnant les voisins distributionnels les plus proches. Nous présentons une comparaison entre la sélection des voisins distributionnels et les voisins les plus proches linéairement. Les résultats montrent que la sélection des voisins distributionnels est bien meilleure. Keywords: unsupervised word sense disambiguation, distributional analysis, dependency parsing, continuous vectorial representation. Mots clés: désambiguïsation sémantique non supervisée, analyse distributionnelle, analyse syntaxique en dépendances, représentation vectorielle continue. 1. Introduction La désambiguïsation des sens de mots est essentielle pour accomplir la plupart des tâches de traitement des langues (Navigli, 2009), par exemple, la recherche d’information, la traduction automatique, l’extraction d’information, l’analyse du contenu, la fouille de textes ainsi que la simplification lexicale de textes. La désambiguïsation sémantique permet de choisir le sens des unités lexicales polysémiques dans un texte. Elle s'effectue en tenant compte des contextes où un sens peut apparaître (Ide et Véronis, 1998). L'approche la plus directe consiste à estimer la proximité sémantique entre chaque sens candidat et chaque sens de chaque mot appartenant au contexte du mot à désambiguïser. Une application de cette méthode est proposée dans (Pedersen et al., 2005). Le principal problème est la rapide explosion combinatoire qu'elle engendre (complexité exponentielle). En d’autres termes, si le 2 MOKHTAR BOUMEDYEN BILLAMI, NURIA GALA JADT 2016 : 13ème Journées internationales d’Analyse statistique des Données Textuelles sens sélectionné d’un mot dans une combinaison est et une liste de mots appartenant au contexte du mot polysémique à désambiguïser alors le score de combinaison est et il y a en tout combinaisons à évaluer, avec le nombre de sens du mot w. Par exemple, pour une phrase de 10 mots avec 10 sens en moyenne, il y aurait 1010 combinaisons possibles. Considérons la phrase suivante tirée du corpus d’évaluation que nous décrivons par la suite dans l’article, [Place flat palms on either side of the head a_few inches away from the ears, fingers pointing toward the shoulders.], « place_Verbe » a 16 sens selon le réseau sémantique BabelNet (Navigli et Ponzetto, 2012), « flat_Adj » 15, « palm_Nom » 4, « side_Nom » 15, « head_Nom » 40, « a few_Adj » 1, « inch_Nom » 2, « away_Adj » 3, « ear_Nom » 6, « finger_Nom » 4, « point_Verbe » 14 et « shoulder_Nom » 5, il y a alors 5 806 080 000 combinaisons de sens possibles à analyser. Ce calcul exhaustif est donc très compliqué à réaliser dans des conditions réelles et rend impossible l’utilisation d’un contexte de taille importante. Dans cet article, nous utilisons deux approches totalement différentes à base d'analyse distributionnelle permettant à la fois de réduire le nombre de combinaisons à évaluer et de ne pas perdre de la cohérence au niveau de la désambiguïsation, voire même de l'améliorer. Baroni et Lenci (2010) ont proposé un travail de synthèse sur les procédures relatives au calcul distributionnel. La clé de notre méthode de désambiguïsation est la sélection des voisins distributionnels les plus proches pour chaque mot polysémique dans le texte. Un travail proche du nôtre est proposé dans (McCarthy et al., 2004). La première approche consiste à réaliser une analyse syntaxique en dépendances permettant d'extraire un ensemble de traits syntaxiques pour chaque mot analysé suivant la méthode de Lin (1998). Cette méthode vise à déterminer la similarité distributionnelle entre un mot polysémique et l’un de ses voisins, en se référant aux traits syntaxiques partagés. La deuxième approche consiste à utiliser un modèle de représentation vectorielle continue des mots (Word2vec) dans un espace à n dimensions. Nous utilisons le modèle proposé par (Mikolov et al., 2013). La similarité consiste ici à comparer le vecteur du mot polysémique et le vecteur de chacun de ses voisins. Cet article est organisé comme suit. La section 2 présente un état de l’art des différentes méthodes et travaux de désambiguïsation sémantique. L’approche de désambiguïsation sémantique fondée sur des méthodes d’analyse distributionnelle ainsi que les données de travail sont présentées dans la section 3. La section 4 présente les expériences ainsi que les résultats obtenus avant de conclure dans la section 5. 2. Travaux antérieurs Il existe plusieurs méthodes de désambiguïsation sémantique, deux catégories majoritaires peuvent être distinguées. La première rassemble des systèmes supervisés et repose sur l’utilisation d’un corpus d'apprentissage réunissant des exemples d'instances désambiguïsées de mots (Bakx, 2006 ; Navigli, 2009). La deuxième rassemble des systèmes non supervisés et utilise des connaissances provenant de réseaux sémantiques (Tchechmedjiev, 2012, Lafourcade, 2011, Navigli, 2009). Il existe une autre catégorie de systèmes non supervisés permettant l’exploitation des résultats de méthodes d’acquisition automatique de sens. Dans cet article, nous nous intéressons uniquement aux méthodes reposant sur l’utilisation d’un système de désambiguïsation à base de connaissances. Plusieurs campagnes d’évaluation ont été organisées pour évaluer la performance des algorithmes de désambiguïsation : Senseval-1 (Kilgarriff et Rosenzweig, 2000), Senseval-2 (Edmonds, 2002), Senseval-3 (Mihalcea et Edmonds, 2004) pour l’anglais et RomansEval, ANALYSES DISTRIBUTIONNELLES POUR AMÉLIORER LA DÉSAMBIGUÏSATION DE SENS 3 JADT 2016 : 13ème Journées internationales d’Analyse statistique des Données Textuelles désambiguïsation sémantique des sens pour des langues romanes telles que le français et l’italien (Segond, 2000; Calzolari et Corazzari, 2000). La suite des travaux de désambiguïsation a été explorée dans des campagnes successives qui ont eu lieu tous les trois ans entre 1998 et 2010 et annuellement depuis 2012. Par exemple, SemEval-2007 (Navigli et al., 2007), SemEval-2013 (Navigli et al., 2013) et SemEval-2015 (Moro et Navigli, 2015). L’un des obstacles majeurs d’une désambiguïsation sémantique qui atteigne des bons résultats est la granularité fine des inventaires de sens. Dans Senseval-3, les systèmes ayant participé à la tâche English All Words (EAW) ont atteint une performance autour de 65% (Snyder et Palmer, 2004) avec WordNet (Fellbaum, 1998). Ce dernier a été adopté comme inventaire de sens. Une performance de 72,9% a été obtenue sur la tâche English Lexical Sample (ELS). Malheureusement, WordNet est une ressource possédant une granularité fine dont la distinction des sens est difficile à reconnaître par les annotateurs humains (Edmonds et Kilgarriff, 2002). Une désambiguïsation avec un inventaire de sens à granularité forte a alors été proposée dans SemEval-2007 sur les mêmes tâches de Senseval-3 (EAW et ELS). Les résultats ont été meilleurs : 82-83% pour EAW et 88,7% pour ELS. Cela montre que la représentation des sens des unités lexicales a un impact décisif lorsqu’on souhaite atteindre des performances dans les 80-90%. La granularité de l’inventaire de sens est également décisive. 3. Méthodologie Nos méthodes de désambiguïsation sémantique prennent en considération des critères distributionnels. Les expériences que nous avons menées ont été réalisées sur un corpus en anglais. Nous avons déjà mené une première expérience pour le français en utilisant seulement l’approche distributionnelle à base de traits syntaxiques (Billami, 2015), le corpus d’évaluation était de petite taille (6 235 occurrences de mots) et il était difficile de tirer des conclusions sur les résultats obtenus. Les uploads/Management/article-complet-jadt-2016.pdf
Documents similaires
-
17
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 24, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.6042MB