Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Cours fouille de donnees textuelle

Cours fouille de données textuelle - DU DATA MINING AU TEXT MINING Le data mining est un processus d ? extraction de structures connaissances inconnues valides et potentiellement exploitables dans les bases entrepôts de données Fayyad à travers la mise en ?uvre des techniques statistiques et de machine learning Les données textuelles constituent également une source d ? information qui permettrait d ? extraire de la connaissance détecter des régularités patterns recherche des similarités identi ?er les relations de causalité etc Schématiquement Le text mining est un processus d ? extraction de structures connaissances inconnues valides et potentiellement exploitables dans les documents textuels à travers la mise en ?uvre de techniques statistiques ou de machine learning Mais d ? autres applications spéci ?que aux textes sont possibles résumé automatique extraction d ? information etc - Introduction au fouille de données textuelle Les données textuelles contiennent des informations potentiellement très utiles pour la fouille Ces données sont présentes sous des formes très diverses allant de textes élaborés avec une bonne conformité grammaticale à de simples mots-étiquettes ? tags souvent parties de mots ou mots issus d ? un lexique de groupe en passant par des phrases incomplètes en langage SMS présentant un lexique particulier de nombreuses fautes d ? orthographe et une syntaxe très simpli ?ée Ces données sont destinées à être lues et comprises par des humains parfois appartenant à des groupes restreints Si les opérations de fouille de données s ? appliquent à une population de m observations nous considérons ici que chaque observation est caractérisée par un ensemble de variables quantitatives et nominales mais aussi par un texte ou liste de mots-clés ou de tags L ? ensemble de ces textes sera noté par T avec card T m Au-delà de di ?cultés relativement super ?cielles comme la non conformité lexicale ou syntaxique le problème principal dans la fouille de données textuelles est le fossé sémantique ? c ? est à dire l ? écart entre l ? interprétation qu ? un ordinateur peut obtenir automatiquement à partir d ? un texte et la signi ?cation de ce même texte pour un humain de la catégorie ciblée par le texte Des di ?cultés de même nature se manifestent pour la fouille d ? autres types de données comme les images ou les vidéos Même si les méthodes d ? analyse de données textuelles ne sont pas encore capables de combler ce fossé sémantique il est néanmoins souvent possible d ? extraire de façon automatique des informations utiles à partir des données textuelles Le volume de données aide parfois ce processus d ? extraction d ? informations Comme les données textuelles ne sont pas directement exploitables par les méthodes classiques de fouille de données des traitements préalables sont nécessaires suivant l ? objectif visé - La fouille de données textuelle passe par plusieurs étapes La collecte de données textuelles Le pré-traitement des données textuelles L ? extraction d'entités primaires L ? étiquetage grammatical L ? extraction d'entités nommées La