TEXT MINING Fouille de textes Master Recherche Informatique Projet dans le cadr

TEXT MINING Fouille de textes Master Recherche Informatique Projet dans le cadre du module Cognition et Connaissance Jérôme CHAMPAVÈRE Didier DEVAURS Kaouther DRIRA Nawal GUERMOUCHE Mohamed TOUKOUROU Meriem ZIDOUNI Text Mining 2 Plan • Introduction • Outils et démarches du text mining • Mise en œuvre des concepts • Domaines de recherche • Conclusion Text Mining 3 • Quantité de documents électroniques en croissance permanente Exploration et récupération des connaissances manuellement extrêmement ardues ou presque impossibles Utilisation de la puissance de l’outil informatique pour en extraire les connaissances Introduction Text Mining 4 Text mining Data mining • Text mining s’adresse aux données textuelles • Données non structurées Outils spécifiques pour le traitement de données textuelles non structurées Text Mining 5 Text mining • Text mining Extraction de l’information à partir des données textuelles non structurées dans des grands corpus de texte • Combine – Des outils du traitement du langage naturel – Des outils de fouille de données Text Mining 6 Outils du Text Mining • Outil d'accès et de collecte des documents • Outil d'ingénierie du document • Outil d'ingénierie du langage • Outil de fouille • Outil de visualisation Text Mining 7 Démarches suivies par le text mining Outils d’ingénierie du langage - Extraction des termes - Filtrage des termes - Indexation des documents - Création d’une taxonomie - Regroupement des documents par les termes qui leur sont associés Documents Traitement linguistique Extraction de connaissances Interprétation Collecte de documents du domaine Outils d’ingénierie du document - Formalisation des données textuelles - Etiquetage des textes (date, auteur, ...) Outil de visualisation et navigation Explorer et analyser les résultats Outils de fouille - Extraction de connaissances (des règles d’association, calcul statistique) Text Mining 8 Mise en œuvre des concepts de fouille de textes Exemples Text Mining 9 Le projet LINDI • Linking Information for Novel Discovery and Insight • Objectifs – Découverte de nouvelles informations – Mise en place d’un système • Contexte : biologie moléculaire • BioText : http://biotext.berkeley.edu/ Text Mining 10 Le projet LINDI • Enjeu : découverte automatique des fonctions des gènes • Question – Un gène A connu (expression et fonction) – Un gène X nouveau (expression connue) – Quelle est la fonction de X ? • Réponse – Expressions de A et X similaires – Fonction de X probablement similaire Text Mining 11 Le projet LINDI • Démarche – Explorer la littérature biomédicale – Faire des recoupements d’informations • Problème : énorme quantité de documents • Recours à la fouille de textes Text Mining 12 Recherche de documents • Documents mentionnant des gènes donnés • Source principale : le Web • Relatif à une langue Text Mining 13 Structuration des données • Ensemble de documents traitant d’un même gène • Recherche de mots-clés – Compter les occurrences – Enlever les mots non signifiants – Retirer les mots sans intérêt : intervention de l’utilisateur • Résultat : un ensemble de mots-clés pour chaque gène Text Mining 14 Exploration des données • Intersection des ensembles de mots-clés • Ordonner les mots-clés trouvés • Présentation à l’utilisateur • Sélection d’une liste de mots-clés pertinents Text Mining 15 Exploration des données • Nouvelle requête – Gènes A, B et C connus – Meilleurs mots-clés sélectionnés • Réduction de l’ensemble des documents à étudier • Expression de X similaire à celle de A, B et C ? • Si oui, fonction probablement similaire Text Mining 16 AIDE • Assistant Intelligent for Data Exploration • Système de planification à initiative mixte – Guidé par les connaissances de l’utilisateur – … et par ses propres évaluations • Aide l’utilisateur à s’orienter • Justifie et ordonne ses propositions Text Mining 17 DocMiner Text Mining 18 Quelques domaines de recherche de fouille de textes Text Mining 19 Domaines abordés • Recherche d’informations fréquentes • Recherche d’informations inattendues • Catégorisation de textes Text Mining 20 Catégorisation de textes • Engouement dans ce domaine de recherche • Choisir les documents par degré de pertinence • L’outil TileBars Text Mining 21 Recherche d’information inattendue • Nouvel horizon pour la veille et l’intelligence économique Audit des besoins Collecte des données Synthèse et Diffusion Traitement Automatiser le traitement des données collectées Text Mining 22 Unexpected Miner • Outils inappropriés pour effectuer de la veille • Architecture du système – Prétraitement des données – Recherche de documents similaires – Recherche d’information inattendue • Evaluation du système Text Mining 23 Conclusion • Découverte de “nouvelles” informations • Interactions homme-machine • Nombreuses applications de “text mining” Text Mining 24 MERCI DE VOTRE ATTENTION uploads/Philosophie/ textmining-final.pdf

  • 25
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager