See discussions, stats, and author profiles for this publication at: https://ww
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/269102916 Analyse de sentiments et extraction des opinions pour les sites e-commerce : application sur la langue arabe Conference Paper · November 2014 CITATIONS 0 READS 1,276 4 authors: Some of the authors of this publication are also working on these related projects: oreillodule: a real-time speech arabic translation system View project Semantic Indexing of Arabic Continuous Speech View project Mohamed Ali Sghaier University of Monastir 3 PUBLICATIONS 6 CITATIONS SEE PROFILE Houssem Abdellaoui University of Sousse 4 PUBLICATIONS 3 CITATIONS SEE PROFILE Rami Ayadi University of Monastir 12 PUBLICATIONS 72 CITATIONS SEE PROFILE Mounir Zrigui University of Monastir 166 PUBLICATIONS 517 CITATIONS SEE PROFILE All content following this page was uploaded by Mounir Zrigui on 04 December 2014. The user has requested enhancement of the downloaded file. 57 Analyse de sentiments et extraction des opinions pour les sites e-commerce : application sur la langue arabe Mohamed Ali Sghaier Laboratoire LATICE, unité de Monastir Faculté des Sciences de Monastir Monastir, Tunisie mohamed.ali.sghaier1@gmail.com Houssem Abdellaoui Laboratoire LATICE, unité de Monastir Faculté des Sciences de Monastir Monastir, Tunisie hsm.abdellaoui@gmail.com Rami Ayadi Laboratoire LATICE, unité de Monastir Faculté des Sciences de Monastir Monastir, Tunisie ayadi.rami@planet.tn Mounir Zrigui Laboratoire LATICE, unité de Monastir Faculté des Sciences de Monastir Monastir, Tunisie mounir.zrigui@fsm.rnu.tn Résumé— Avec l’émergence du web 2.0, les internautes sont de plus en plus inviter à exprimer leurs opinions à propos de différents sujets dans des réseaux sociaux, des sites de e-commerce, des sites d’actualités, des forums, etc. Une majeur partie de ces informations, qui décrivent des sentiments devient l’objet d’études dans plusieurs domaines de recherche tel que : « La détection de opinions et l’analyse des sentiments ». En fait c’est le processus d'identification de la polarité des sentiments détenus dans les avis trouvés dans les interactions des internautes sur le web et de les classer comme positif, négatif ou neutre. Dans cet article, nous proposons l’implémentation d'un outil d'analyse des sentiments qui a pour rôle de détecter la polarité des opinions à partir des revues extraites des sites web qui se spécialisent dans le commerce électronique ou les revues des produits en langue arabe. Les résultats montrent des lacunes dans ce domaine de recherche, d’abord le manque de ressources lors de la collection des données. Deuxièmement la complexité de traitement de la langue arabe surtout les dialectes dans la phase de prétraitement. Mais finalement les résultats obtenus sont prometteurs. Mots-clés — Analyse de Sentiment; Opinion Mining; Revues des produits; Langue Arabe, TAL I. INTRODUCTION Depuis l'apparition de la notion de Web 2.0 et l’émergence des sites communautaires, l’internet devient le moyen le plus sophistiqué qui donne la possibilité de communiquer, de s’exprimer, à travers les réseaux sociaux, les blogs les forums … à une échelle mondiale. Une majeur partie de ces informations, dont leur taille est en pleine expansion, qui en une sorte ou autre décrivent des opinions, sont devenu l’objet de plusieurs domaines de recherche et principalement « Analyse de Sentiments » ou « Opinion Mining ». Un peu récent, « Analyse des sentiment » attire l’intention de plusieurs laboratoires de recherche d’une part. D’autre part le grand profit qu’il pourra accorder au domaine industriel encourage les grandes sociétés du globe à s’y investir. En effet, l’analyse des sentiments est un des nouveaux défis apparu en traitement automatique des langues qui consiste à analyser les opinions des internautes à propos d’un sujet donné pour détecter son polarité (positive / négative). Notre travail s’inscrit dans cette mouvance, il vise les interactions des internautes, ces derniers peuvent toucher plusieurs domaines (arts, politique, sport, économie…). On a choisi de s’accentuer sur l’économie et plus précisément sur les revus des produits. Ce domaine est devenu un enjeu majeur pour toute entreprise désireuse de mieux comprendre ce qui plait et déplait à ses clients ainsi que pour les clients qui souhaitent comparer les produits avant de les acquérir [1]. La plupart des travaux de recherche effectués dans ce domaine ont été menés sur des langues européennes (surtout en anglais) et asiatiques (japonais et chinois). Néanmoins, très peu de travaux ont été réalisés sur le plan des langues qui sont morphologiquement riches (comme l'arabe et tchèque). On a pris le challenge de travailler sur la langue arabe. Tout au long de notre travail, nous essaierons de mettre l'accent sur les différents problématiques qui posent un défi à la communauté scientifique qui doit être en mesure de proposer des outils efficaces permettant de faire les traitements nécessaires pour l’extraction des opinions et l’analyse de sentiment. On va tout d’abord commencer par présenter la première phase « collection des données », ensuite décortiquer les différents types de taches réalisées pour le prétraitement appliqué sur les données, puis on arrive à l’étape la plus délicate qui est la classification, c'est-à-dire l’identification de la polarité des avis par rapport à un produit, les différents expérimentations faites et les résultats obtenus. 58 II. TRAVAUX RELIÉS Les recherches dans ce domaine ont commencé dès l’année 2002 par Pang, Lee et Vaithyanathanc [2], qui ont travaillé sur la classification au niveau document à travers des méthodes d’apprentissage automatique (Naive Bayes, maximum entropy classification et support vector machines) appliqué sur des critiques des films en anglais. Plusieurs améliorations ont ensuite été proposées sur plusieurs langues telles que le français, allemand, russe… Au cours des dernières années, des chercheurs ont relevé le défis de l'analyse des sentiments et détections des opinions dans les langues dites « riche morphologiquement : MRL ». En effet, une langue MRL est une langue dans laquelle les informations importantes concernant les unités syntaxiques et les relations sont exprimées au niveau du mot [3]. La langue arabe constitue une de ces langues qui a commencé à attirer un certain intérêt. Parmi les travaux qui s’y ont intéressé, on cite M. Elhawary et M. Elfeky [4] qui ont appliqué l'analyse des sentiments sur des critiques arabes pour extraire des descripteurs en utilisant un lexique de mots arabe afin d’identifier la polarité (positive, négative ou neutre) des avis. Aussi Motaz K. Saad et W. Ashour [5] ont étudié l’impact de la phase de prétraitement du texte, la racinisation ou désuffixation (stemming), normalisation de texte et la pondération des termes sur la classification des textes arabe. M. Hijjawi et Z. Bander [6] ont représenté une approche d’identification des opinions basée sur l'exploration ontologique de textes. Un lexique d’émotions et des techniques de classification supervisées été utilisé dans l’extraction des opinions et pour détecter la polarité des avis. A. Ziani, Y. Tlili Guiassa et N. Azizi [7] ont proposé un système qui opère en trois phases, la première consiste à la construction et le prétraitement manuel du corpus recueillis à partir des journaux arabes algériens. La seconde phase est le choix des caractéristiques pour la représentation des commentaires. Enfin la troisième phase est la réalisation du module de classification combinant quatre classificateurs SVM avec des fonctions noyaux différents. Ils ont utilisé deux stratégies nommé un contre un et un contre tous dont les résultats ont prouvé que la première stratégie est meilleure que la deuxième avec les commentaires des journaux en langue arabe. A. Mountassir, H.Benbrahim et I.Berrada [8] ont investiguer la classification supervisée de sentiment dans un contexte arabe. Ils ont utilisé deux corpus arabes différents à plusieurs niveaux et trois classificateurs standards à savoir Naïve Bayes (NB), Support Vector Machine (SVM) et K- Nearst Neighbor (KNN). Les résultats obtenus montrent que NB et SVM sont efficaces et compétitifs. Néamoins, la performance de KNN dépend du corpus. Mohammed Rushdi-Saleh et M. Teresa Martín-Valdivia [9] ont appliqué les classificateurs Support Vector Machine (SVM) et Naïve Bayes (NB) pour identifier la polarité des commentaires des internautes. Les auteurs ont collecté un corpus en arabe nommé OCA (Opinion Corpus for Arabic), puis ils ont traduit ce dernier en version anglaise appelé English version OCA (EVOCA) pour l’application de la tâche de classification. Contrairement à notre travail ou nous avons évité la traduction qui diminue la précision des résultats sur tout qu’il y‘a des commentaires rédigés dans des dialectes variés. III. COLLECTION DES DONNÉES Notre corpus est collecté manuellement par nous-même à partir de plusieurs ressources web, à titre d’exemples reviewzat1, jawal1232, jumia3… Il est sous forme d’un ensemble de documents textes, chaque document représente un produit dont chaque produit est représenté par son type, son nom et les revues (les commentaires) sur ce dernier. On a sélectionné cinq types de produits qui forment ce corpus, les types sont Caméra, PC portable, Téléphone portable, Tablet, Télévision. Le corpus contient 250 documents, 2812 phrases et 15466 mots. IV. ANNOTATION DE CORPUS L'étiquetage ou l'annotation des opinions est une tâche humaine qui nécessite d'énormes efforts. Et afin de réaliser ce processus, deux évaluateurs ont travaillé sur l'annotation des revues qu’on a collecté, un premier expert d’évaluation de produits et rédaction des revues et un deuxième spécialiste dans la langue arabe (enseignant). On a observé qu'ils avaient un haut degré d'accord dans leur classification (plus de 92%). Pour les revues qu'ils ont uploads/Management/ citala2014-pdf.pdf
Documents similaires










-
23
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 04, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.7938MB