HAL Id: hal-01335116 https://hal-inalco.archives-ouvertes.fr/hal-01335116 Submi

HAL Id: hal-01335116 https://hal-inalco.archives-ouvertes.fr/hal-01335116 Submitted on 21 Jun 2016 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité Egle Eensoo, Mathieu Valette To cite this version: Egle Eensoo, Mathieu Valette. Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité. 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), Jun 2015, Caen, France. Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), Caen (France), Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), Caen (France). <https://taln2015.greyc.fr>. <hal-01335116> Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité Egle Eensoo1 Mathieu Valette1 (1) ERTIM, INALCO, 2 rue de Lille, 75343 PARIS cedex 07 egle.eensoo@inalco.fr, mathieu.valette@inalco.fr Résumé. Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs expériences en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces expériences se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats. Abstract. A method of corpus semantics applied to opinion mining and sentiment analysis: the impact of dialogical and dialectical features on the expression of subjectivity. This paper first aims to provide a critical overview of the relationship between NLP and linguistics, and then to sketch out a discussion on the possible contribution of corpus semantics in an application-based context based on several subjective text mining studies (sentiment analysis and opinion mining). These studies break away from traditional approaches founded on the detection of axiological markers. Instead, they use explicit criteria related to the representation of actors (dialogical component) and argumentative or narrative structures (dialectical component). We hope to highlight the benefit of a methodological dialogue between theory (text semantics), meaning-oriented methods of corpus linguistics (i.e. textometrics) and NLP current practices in terms of algorithmic (machine learning) and assessment methodology. Mots-clés : Textométrie, Sémantique de corpus, Fouille d’opinion, Analyse des sentiments Keywords: Textometry, corpus semantics, opinion mining, sentiment analysis 1 Introduction Avec l’essor dans le TAL des méthodes par apprentissage automatique et la relative désaffection pour les méthodes symboliques à base de règles linguistiques formelles dans le monde académique1, les linguistes sont aujourd’hui contraints de repenser leur rôle dans un contexte où dominent les méthodes mathématiques. Si l’annotation requise pour la constitution des données d’apprentissage nécessite un savoir-faire et une connaissance experte parfois adossée à des présupposés théoriques, les spécialistes de la fouille de textes, par exemple, montrent peu d’intérêt pour les théories linguistiques, vraisemblablement à raison, tant se creuse le fossé entre les préoccupations minutieuses mais ad hoc de certains linguistes et celles des talistes, guidées par un principe de réalité : la masse de données textuelles accessibles. Cet article propose un panorama critique des relations entre TAL et linguistique et esquisse, au moyen d’exemples commentés issus d’applications en fouille de textes (analyse de sentiments et fouille d’opinions), une discussion sur l’apport possible d’une réflexion linguistique dans ce contexte applicatif. Nous souhaitons en particulier mettre en 1 (Tanguy, 2012) relate plusieurs études (Church, 2011, Hall et al., 2008) où a été observé que la proportion d'articles de l’Association for Computational Linguistics intégrant une section statistique a progressé de 30 à 90 % du début des années 90 à la fin des années 2000. EGLE EENSOO, MATHIEU VALETTE lumière le bénéfice potentiel d’un dialogue méthodologique entre des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie), l’exploitation de concepts de la sémantique textuelle (Rastier, 2001, 2011) et les usages actuels du TAL en termes d’algorithmiques mais aussi de pratiques évaluatives. L’article est construit en quatre parties. Le paragraphe 2 offre une lecture optimiste des relations qu’entretiennent le TAL et la linguistique et de leur réunion possible autour de l’objet texte. Le paragraphe 3 procède à l’examen en miroir des outils et méthodes nécessaires à l’établissement d’une sémantique instrumentée, en mettant notamment en vis-à-vis la textométrie et le TAL. Le paragraphe 4 présente les concepts linguistiques et la méthodologie adoptés par les auteurs pour une tâche de fouille de textes subjectifs. Enfin, le paragraphe 5 présente, à des fins illustratives, trois expérimentations adossées à la méthodologie décrite dans le paragraphe précédent. 2 Le statut contemporain du texte dans le TAL Longtemps unis par des objets formels similaires sinon communs (la proposition, la phrase) et un même positionnement référentialiste, la linguistique et le TAL ont vu leurs rapports se distendre depuis une quinzaine d’années. Les modèles théoriques de la linguistique formelle se sont en effet avérés peu adaptés à la prise en compte de l’évolution rapide de la demande applicative à laquelle le TAL a été confronté. Jusqu’au début des années 2000, la plupart des applications concernaient la thématique, le lexique ou la terminologie. Les tâches correspondantes nécessitant une automatisation (résolution d’anaphore, désambiguïsation lexicale, identification des parties du discours) relevaient d’une sémantique de la phrase. Rapidement, les technologies de l’information et la redocumentarisation du monde (Pédauque, 2007) ont actualisé le statut d’objet scientifique du texte – statut que la linguistique ne lui accorde encore que marginalement et au sein de certains courants seulement (analyse du discours, linguistique textuelle). Des tâches telles que la classification de textes et la fouille de textes ont émergé, rendant nécessaire une approche macroscopique et à grande échelle des productions langagières plus en phase avec l’unité texte qu’avec l’unité phrase. Les modèles formels de la sémantique de la phrase, avec leurs analyses « profondes » mais très locales apparaissent moins efficaces pour l’analyse de grands corpus, notamment en termes de rappel, bien qu’elles proposent encore des solutions pertinentes pour l’extraction d’information précise, liée aux applications telles que l’interface homme/machine (système de question-réponse, ou réponse à des questions formulées en langue dite naturelle) (Zweigenbaum et al., 2008). Par ailleurs, les méthodes symboliques sont plébiscitées dans l’industrie où beaucoup d’applications nécessitent un haut taux de précision sans que le rappel soit déterminant. Enfin, la tendance actuelle est à l’hybridation dans le monde académique comme dans l’industrie. Le couplage de données produites à partir de méthodes à base de règles et de technique apprentistes permet d’améliorer les performances de systèmes de manière significative (Villena-Román et al., 2011). L’essor, dans le courant des années 2000, des applications en fouille de textes subjectifs (fouille d’opinion, analyse des sentiments, détection des émotions, etc.) implique également une évolution des tâches : alors que le TAL privilégiait les unités référentielles et souvent lexicales (entités nommées, concepts, termes, thèmes), il est aujourd’hui confronté à des valeurs. Certes, les méthodes d’extraction et de classification n’ont guère évolué : dans beaucoup d’applications, les adjectifs sont aux textes subjectifs ce que les substantifs sont aux concepts (Strapparava & Valitutti, 2004) et on a tendance à appliquer aux premières les méthodes qui ont fait leur preuve sur les secondes. Dépasser le « lexicalisme » du TAL est un des enjeux de la linguistique car l’inventaire des objets de la linguistique susceptibles d’être appréhendés par le TAL est, en effet, loin d’être clos. Il est par exemple probable que les contraintes de genres, de discours, que la structure actancielle des textes, que le schéma de la communication, soient utiles à l’interprétation des émotions, sentiments ou des opinions2. En somme, tout se passe comme si les questions qui se posent au TAL évoluaient d’une problématique logico-formelle dominée par le primat référentiel et le choix historique de la phrase (et son avatar : l’énoncé) comme unité d’analyse, vers une problématique herméneutique et interprétative dont l’objet est la réception et l’interprétation des textes considérés comme des unités de sens complexes déterminées par un projet de communication. La proposition a notamment été formulée par (Rastier, 2001) et oppose, in fine, deux paradigmes, la linguistique des langues et la linguistique des textes. uploads/Management/ une-methodologie-de-semantique-de-corpus-appliquee-a-des-taches-de-fouille-d-x27-opinion-et-d-x27-analyse-des-sentiments.pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Apv 11, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.7014MB