Tm2 nlp Text Mining Section Introduction aux techniques NLP UM P ?? AL KHAWARIZMI - MSDA Pr T RACHAD CNLP ? L ? objectif général des techniques de la NLP Natural Language Processing est d ? utiliser les connaissances générales sur un langage naturel pour
Text Mining Section Introduction aux techniques NLP UM P ?? AL KHAWARIZMI - MSDA Pr T RACHAD CNLP ? L ? objectif général des techniques de la NLP Natural Language Processing est d ? utiliser les connaissances générales sur un langage naturel pour doter un document d ? un format plus structuré et qui est lisible par une machine ? Les représentations obtenus à l ? issus des opérations de la NLP sont souvent transitoires car ils ne permettent pas de résoudre des problèmes spéci ?ques ? Des traitement supplémentaires sont souvent sollicités pour avoir un model représentatif qui permet de réaliser aisément des opérations de découverte de patterns dans les documents CTechniques de la NLP ? Les techniques de la NLP utilisent la stratégie traditionnelle de diviser pour régner en subdivisant le problème original en plusieurs sous-t? ches à résoudre indépendamment ? Les techniques les plus courantes de la NLP sont ? La segmentation Tokenization ? Les analyses morphologiques racinisation et lemmatisation ? L ? étiquetage morpho- syntaxique POS tagging ? L ? analyse syntaxique syntactic parsing ? L ? analyse sémantique CProcessus NLP Analyse morphologique et Lexicale Analyse Syntaxique Analyse Sémantique Analyse Pragmatique Lexique Grammaire Règles sémantiques Informations sur le contexte CAnalyse Morphologique ? L ? analyse morphologique a comme objectif principal d ? avoir une normalisation des mots contenus dans un texte en identi ?ant leurs formes canoniques ? Une forme canonique est un mot qui correspond à la forme réduite commune de toutes ses dérivées ? La segmentation la racinisation et la lemmatisation sont les techniques déployées pour récupérer la forme canonique d ? u mot CAnalyse Morphologique Segmentation ? La segmentation tokenization est le processus de subdivision des données texte en appelées tdoeksenusn istéosuvleinngtudisetsiqmuoetss p lus simples à manipuler et qui sont ? D ? autre termes qui sont reliés à la segmentation ? Bigrams les tokens qui se composent de deux mots consécutifs ? Trigrams les tokens qui se composent de trois mots consécutifs ? Ngrams les tokens qui se composent d'un nombre N ? de mots consécutifs ? Souvent les tokens obtenus doivent être nettoyés avant de passer aux opérations suivantes du prétraitement enlever la ponctuation enlever les termes non signi ?catifs stopwords etc CAnalyse Morphologique Racinisation ? La racinisation ou la désu ?xation Stemming en anglais est un algorithme qui permet d ? éliminer le pré ?xe ou le su ?xe d ? un mot a ?n d ? obtenir sa racine ou radical ? Il existe plusieurs algorithmes qui peuvent êtres utilisées pour réaliser la racinisation des mots ? En anglais Porter Lovins ? En français Carry Porter Unine ? En arabe Khoja Alkhalil ? ? Algorithmes génériques Paice Husk CAnalyse Morphologique Lemmatisation ? Les algorithmes de racinisation sont peu e ?caces c ? est pourquoi qu ? il faut s ? assurer que la forme résultante est un mot connu dans un dictionnaire ? cLaanleomniqmuaeti sleatmiomnep eernmreegtisdt ? reéxetrdaiarnesàlepsadrticirtido ? nunnamireost verbe adjectif ? de la langue sa forme ?
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11703549886jqoumjqdfjq89gpv7wl2we9j1mnrgcjm6ksj3sa2kgwf6dobyidwbyjzcuwh7tlngdinwjqbgmzfj3zfg4peabbv9tx0pxqbh4br.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11704323081hrrugxgunbqfkbxpc3gjnmj739kpaiqe1prfibncsscv5ouwt5vjfrhtrnbjjximr5tkvo57wjt9e24wcwloawmqhaebyxoqv1l6.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/117039457762a1ywjvwaheqrdxvv3ee3vnvqiphgincu9nkuzzkgxlmfdedvgxuzcepfpkrjcizsug5tkgwamyllcvpb2dc3nvc54d4dlbm9jbx.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/ikPA56ftrg53J4icIj13mIy1IIOs0c17AMh3tAIVDzM0pfUCYWZ3qBymNtCxd5DcPngSZ7h6NbjiYql7HJrgADK0.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/xnRriQO3dPhh7uzcS7P1UiQX2imNDYWm9tbG8RtCaWcGWrM08gL0VH2I7hJTbmavMxEcgzvHnoTrmGCL86neDUja.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11704017549toxxcplz3iazs44cwsec3ap3cl6it9gud6cjyetehb8wahemy1fa0grv6tsv8hen6chmks7bb6ltjc5iqj6z7ikdcvbsisohflmr.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11703983941iazln56mka7s4vnge0ojklglw6pg1ojy3lc08bd2q74yc4bgkeqagxcjsyh098jb8lvxxqjl8fqec5ohccdpo9nom7j7yoepd4iz.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11704415667tnyeentbhgpffzqbky4hvldhz1vevpacxfy8jzr1mjqrb1v4aoubfxrcxflmmpdpn8svhne2zrtfhas8ty1mbnso1i8nxdgcoocl.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/xTYVeemL9wJdAe5ieRQyunyj11TfY7BBR6JNSacru8VBOpg9ri2nB2vNMQzi0EQiwb8qpMTvHJ2Wpf0nmUY4jM1S.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/11704017527qeasukrpltxz0mkmvwvgnnuf088qtkxtxl2tpktzdqo7mpe344iyn76payu9j5xzfpsv0gjzsyrrefjreoyxc7srwfucymizkmtr.png)
-
46
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise- Détails
- Publié le Aoû 01, 2021
- Catégorie Management
- Langue French
- Taille du fichier 44.3kB