Cours fouille de données textuelle 1- DU DATA MINING AU TEXT MINING Le data min

Cours fouille de données textuelle 1- DU DATA MINING AU TEXT MINING Le data mining est un processus d’extraction de structures (connaissances) inconnues, valides et potentiellement exploitables dans les bases (entrepôts) de données (Fayyad, 1996), à travers la mise en œuvre des techniques statistiques et de machine learning. Les données textuelles constituent également une source d’information qui permettrait d’extraire de la connaissance (détecter des régularités [patterns], recherche des similarités, identifier les relations de causalité, etc.). Schématiquement : Le text mining est un processus d’extraction de structures (connaissances) inconnues, valides et potentiellement exploitables dans les documents textuels, à travers la mise en œuvre de techniques statistiques ou de machine learning. Mais d’autres applications spécifique aux textes sont possibles : résumé automatique, extraction d’information, etc. 2- Introduction au fouille de données textuelle : Les données textuelles contiennent des informations potentiellement très utiles pour la fouille. Ces données sont présentes sous des formes très diverses, allant de textes élaborés, avec une bonne conformité grammaticale, à de simples « mots-étiquettes » (tags, souvent parties de mots ou mots issus d’un lexique de groupe), en passant par des phrases incomplètes en langage SMS, présentant un lexique particulier, de nombreuses fautes d’orthographe et une syntaxe très simplifiée. Ces données sont destinées à être lues et comprises par des humains, parfois appartenant à des groupes restreints. Si les opérations de fouille de données s’appliquent à une population de m observations, nous considérons ici que chaque observation est caractérisée par un ensemble de variables quantitatives et nominales mais aussi par un texte (ou liste de mots-clés ou de tags). L’ensemble de ces textes sera noté par T, avec card(T)=m. Au-delà de difficultés relativement superficielles, comme la non conformité lexicale ou syntaxique, le problème principal dans la fouille de données textuelles est le « fossé sémantique », c’est à dire l’écart entre l’interprétation qu’un ordinateur peut obtenir automatiquement à partir d’un texte et la signification de ce même texte pour un humain (de la catégorie ciblée par le texte). Des difficultés de même nature se manifestent pour la fouille d’autres types de données, comme les images ou les vidéos. Même si les méthodes d’analyse de données textuelles ne sont pas encore capables de combler ce fossé sémantique, il est néanmoins souvent possible d’extraire de façon automatique des informations utiles à partir des données textuelles. Le volume de données aide parfois ce processus d’extraction d’informations. Comme les données textuelles ne sont pas directement exploitables par les méthodes classiques de fouille de données, des traitements préalables sont nécessaires suivant l’objectif visé. 3- La fouille de données textuelle passe par plusieurs étapes:  La collecte de données textuelles  Le pré-traitement des données textuelles  L’extraction d'entités primaires  L’étiquetage grammatical  L’extraction d'entités nommées  La résolution référentielle  L’analyse syntaxique  L’extraction d'informations  La lemmatisation  La représentation vectorielle des textes  Le développement de modèles sur la base du contenu textuel seul ou en ajoutant des variables quantitatives et nominales  L’utilisation des modèles développés et l'évaluation des résultats 4- Principales opérations :  Collecte et pré-traitement des données textuelles Les données textuelles potentiellement utiles dans un projet de fouille de données massives peuvent provenir de sources variées et se trouver dans des formats différents. Les opérations suivantes sont en général nécessaires : 1-Identification des sources. 2-Récupération des contenus à partir des sources. 3-Extraction des données textuelles. 4-Pré-traitements. Les opérations 3, 4 et éventuellement 2 (si les sources sont nombreuses ou alors un débit d’interrogation élevé est autorisé) sont facilement parallélisables sur une plate-forme distribuée car le même traitement doit être appliquée aux différents fragments de données.  Extraction d’entités primaires L’analyse d’un texte démarre en général par une étape d’extraction d’entités « primaires », employées ensuite pour construire des structures plus complexes ou des représentations vectorielles. Le texte est découpé en lemmes et signes de ponctuation grâce à un outil de segmentation (tokenizer) qui utilise des règles dépendantes de la langue et un lexique. Le lexique contient l’ensemble des lemmes (unités autonomes) d’une langue et/ou d’un domaine particulier (par ex. la biochimie), ainsi que des informations additionnelles, morphologiques (formes possibles, avec racine et suffixes, préfixes) ou parfois syntaxiques. Un lexique peut souvent être enrichi par des lemmes spécifiques Un lemme peut être constitué d’un ou plusieurs mots. Parmi les lemmes qui comportent plusieurs mots on peut distinguer les mots composés (par ex. « chauve-souris ») et les locutions (groupes de mots qui forment une même entité). On trouve des locutions nominales (« chemin de fer »), verbales (« arrondir les angles »), etc. Si les mots composés sont en général présents dans les lexiques, la situation est plus nuancée pour les locutions. Par ailleurs, la détection de locutions exige parfois une analyse plus approfondie et non seulement une recherche dans un lexique. Par exemple « arrondir les angles » est vraisemblablement une locution dans un texte qui traite de négociations mais n’est probablement pas une locution dans des instructions de débavurage.  Étiquetage grammatical Lors de l’étape d’étiquetage grammatical ou morpho-syntaxique, chaque lemme extrait est caractérisé par une catégorie lexicale (nom, verbe, adverbe, etc.) et, lorsque cela est pertinent, des informations concernant le genre, le nombre, le mode, le temps, etc. Cette opération n’est pas triviale car de nombreux lemmes peuvent appartenir à plusieurs catégories lexicales. Par exemple, « bien » peut être aussi bien un adverbe (« c’est bien fait »), un nom (« le bien et le mal »), un adjectif (« des gens bien ») ou une interjection (« Bien ! »). Une analyse du contexte est nécessaire pour enlever cette ambiguïté. Cette analyse est souvent superficielle, basée sur le voisinage local du lemme dans la phrase. Des erreurs d’étiquetage sont possibles, surtout lorsque le voisinage des lemmes est atypique, en raison par exemple d’une faible conformité grammaticale du texte.  Extraction d’entités nommées et résolution référentielle Une entité nommée est un élément du langage qui fait référence à une entité unique du domaine du discours. Les entités nommées peuvent être de différents types : noms de personnes (« Barack Obama Jr. »), de lieux (« Mont Blanc »), d’organisations (« Mouvement international de la Croix-Rouge et du Croissant-Rouge »), de produits (« iPhone 6s », « Galaxy S6 »), dates (« 5 mai 1789 », « 18 brumaire 1799 »), etc. L’extraction des entités nommées est très utiles dans la fouille de données textuelles car ces entités donnent des indications fortes sur le contenu d’un texte. Les premières approches d’extraction étaient basées sur l’utilisation de règles définies explicitement et impliquaient donc une étape préparatoire laborieuse. Les approches plus récentes font appel à des méthodes d’apprentissage à partir d’un corpus annoté, avec éventuellement la prise en compte d’un nombre limité de règles explicitement définies. Les règles d’extraction doivent prendre en compte le contexte en raison de difficultés liées à la polysémie (par ex. l’entité « Washington » fait référence à la ville, à l’état ou à la personne) ou à la métonymie (par ex. « l’Elysée » fait référence à la présidence de la République Française ou simplement au palais).  Analyse syntaxique L’analyse syntaxique cherche à mettre en évidence la structure hiérarchique des phrases d’un texte et joue un rôle important dans la compréhension du texte. Bien entendu, l’analyse syntaxique n’a de sens que si les données textuelles sont sous forme de phrases et non simplement de mots-clés. Aussi, la bonne conformité grammaticale est critique pour ce type d’analyse. Une analyse complète doit produire un ensemble d’arbres syntaxiques décrivant chaque phrase du texte et permettant ultérieurement son « interprétation ».  Extraction d’informations L’extraction d’informations à partir de textes est un des principaux objectifs de la fouille de textes. Cette étape vise à mettre en correspondance des textes avec des « schémas » d’interprétation prédéfinis qui ont un rapport direct avec l’application de fouille. Un schéma d’interprétation (ou patron sémantique) regroupe plusieurs variables qui ont un rapport direct avec l’application de fouille, par exemple : [Fait: ?]{[Où: ?][Quand: ?+*Qui: ?+*Nature: ?+…} Ces variables reçoivent des valeurs à partir de l’analyse du texte traité qui sera ainsi décrit à travers un ou plusieurs schémas. Les variables des schémas sont ensuite utilisées pour la fouille, conjointement avec d’autres variables (quantitatives, nominales) décrivant la même population.  Lemmatisation ou racinisation Dans des textes et parfois dans des listes de mots-clés, un même lemme du lexique peut prendre des formes variables. Par exemple, en français la forme d’un verbe varie suivant le mode, le temps, la personne et le nombre. Ces différences, nécessaires pour certaines opérations comme l’étiquetage grammatical et l’analyse syntaxique, peuvent nuire à d’autres opérations. Par exemple, pour la classification thématique de textes (en passant ou non par des représentations vectorielles) il est préférable de traiter comme un lemme unique les différentes variantes issues d’une même forme canonique (par ex. « penser » plutôt que « pensons », « pense », « penserons »). Cela permet d’ignorer une partie de la variance (stylistique, pragmatique, etc.) pour se concentrer sur le fond thématique. Également, diverses ressources uploads/Finance/ cours-fouille-de-donnees-textuelle.pdf

  • 18
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 06, 2021
  • Catégorie Business / Finance
  • Langue French
  • Taille du fichier 0.5369MB