Tm2 nlp Text Mining Section Introduction aux techniques NLP UM P ?? AL KHAWARIZMI - MSDA Pr T RACHAD CNLP ? L ? objectif général des techniques de la NLP Natural Language Processing est d ? utiliser les connaissances générales sur un langage naturel pour

Text Mining Section Introduction aux techniques NLP UM P ?? AL KHAWARIZMI - MSDA Pr T RACHAD CNLP ? L ? objectif général des techniques de la NLP Natural Language Processing est d ? utiliser les connaissances générales sur un langage naturel pour doter un document d ? un format plus structuré et qui est lisible par une machine ? Les représentations obtenus à l ? issus des opérations de la NLP sont souvent transitoires car ils ne permettent pas de résoudre des problèmes spéci ?ques ? Des traitement supplémentaires sont souvent sollicités pour avoir un model représentatif qui permet de réaliser aisément des opérations de découverte de patterns dans les documents CTechniques de la NLP ? Les techniques de la NLP utilisent la stratégie traditionnelle de diviser pour régner en subdivisant le problème original en plusieurs sous-t? ches à résoudre indépendamment ? Les techniques les plus courantes de la NLP sont ? La segmentation Tokenization ? Les analyses morphologiques racinisation et lemmatisation ? L ? étiquetage morpho- syntaxique POS tagging ? L ? analyse syntaxique syntactic parsing ? L ? analyse sémantique CProcessus NLP Analyse morphologique et Lexicale Analyse Syntaxique Analyse Sémantique Analyse Pragmatique Lexique Grammaire Règles sémantiques Informations sur le contexte CAnalyse Morphologique ? L ? analyse morphologique a comme objectif principal d ? avoir une normalisation des mots contenus dans un texte en identi ?ant leurs formes canoniques ? Une forme canonique est un mot qui correspond à la forme réduite commune de toutes ses dérivées ? La segmentation la racinisation et la lemmatisation sont les techniques déployées pour récupérer la forme canonique d ? u mot CAnalyse Morphologique Segmentation ? La segmentation tokenization est le processus de subdivision des données texte en appelées tdoeksenusn istéosuvleinngtudisetsiqmuoetss p lus simples à manipuler et qui sont ? D ? autre termes qui sont reliés à la segmentation ? Bigrams les tokens qui se composent de deux mots consécutifs ? Trigrams les tokens qui se composent de trois mots consécutifs ? Ngrams les tokens qui se composent d'un nombre N ? de mots consécutifs ? Souvent les tokens obtenus doivent être nettoyés avant de passer aux opérations suivantes du prétraitement enlever la ponctuation enlever les termes non signi ?catifs stopwords etc CAnalyse Morphologique Racinisation ? La racinisation ou la désu ?xation Stemming en anglais est un algorithme qui permet d ? éliminer le pré ?xe ou le su ?xe d ? un mot a ?n d ? obtenir sa racine ou radical ? Il existe plusieurs algorithmes qui peuvent êtres utilisées pour réaliser la racinisation des mots ? En anglais Porter Lovins ? En français Carry Porter Unine ? En arabe Khoja Alkhalil ? ? Algorithmes génériques Paice Husk CAnalyse Morphologique Lemmatisation ? Les algorithmes de racinisation sont peu e ?caces c ? est pourquoi qu ? il faut s ? assurer que la forme résultante est un mot connu dans un dictionnaire ? cLaanleomniqmuaeti sleatmiomnep eernmreegtisdt ? reéxetrdaiarnesàlepsadrticirtido ? nunnamireost verbe adjectif ? de la langue sa forme ?

  • 46
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Aoû 01, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 44.3kB