modelisation profiling des donnees texte
Mineure Data Science ? Frédéric Pennerath MODÉLISATION SÉMANTIQUE DE DONNÉES TEXTUELLES TOPIC MODELING ? ET WORD EMBEDDING ? Chapitre Mineure Data Science ? Frédéric Pennerath Plan ? Introduction ?? Topic modelling ?? Word embedding ? Les grandes catégories d ? algorithmes ?? Approche spectrale ? LSA LSI ?? Approche probabiliste LDA ?? Approche par autoencodage Word Vec Mineure Data Science ? Frédéric Pennerath Classification sémantique de documents ou topic modeling ? Problème trouver une représentation sémantique des documents par réduction de dimensions ? Entrées documents suite de tokens de longueur variable ? Sorties un vecteur distribution de topics ? représentant chaque document Résumé de l ? approche ? Un document est vu au départ comme un vecteur distribution de mots Bag Of Words ? On considère une application projective des documents Qui projette chaque document dans un espace de ?? D dimensions Telle que la distrib des mots associée au projeté soit la plus proche de la distrib initiale Interprétation ? Dimension de l ? espace réduit ?? axe thématique ?? variable cachée ? Document ?? vecteur distribution de thématiques ? Thématique ?? vecteur distribution de mots Applications ? Classification supervisée ou non documents ? Recherche d ? information indexation sémantique Sport People Economie Star Million Inflation Mineure Data Science ? Frédéric Pennerath Classification sémantique de documents ou topic modeling ? Exemple de LDA de scikit -learn cf topics extraction with nmf lda py ? Données posts sur newsgroups ? LDA avec F variables cachées sur un vocabulaire ? Extraction des top words ? de chaque thème Topic edu com mail send graphics ftp pub available contact university list faq ca information cs program sun uk mit Topic don like just know think ve way use right good going make sure ll point got need really time doesn Topic christian think atheism faith pittsburgh new bible radio games alt lot just religion like book read play time subject believe Topic drive disk windows thanks use card drives hard version pc software file using scsi help does new dos controller Topic hiv health aids disease april medical care research light information study national service test led page new drug Topic god people does just good don jesus say israel way life know true fact time law want believe make think Topic team game period play flyers Topic car year just cars new engine like bike good oil insurance better tires thing speed model brake driving performance Topic people said did just didn know time like went think children came come don took years say dead told started Topic key space law government public use encryption earth section security moon probe enforcement keys states lunar military crime surface technology Mineure Data Science ? Frédéric Pennerath Classification sémantique de mots ou word embedding ? Problème trouver une représentation sémantique des mots par réduction de dimensions ? Entrées mots dans leur contexte suite de tokens de longueur variable ? Sorties un vecteur distribution de topics ? représentant chaque mot Hypothèse fondamentale You shall know
Documents similaires
-
24
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise- Détails
- Publié le Fev 02, 2021
- Catégorie Administration
- Langue French
- Taille du fichier 765kB