Text Mining Section 2: Introduction aux techniques NLP UM6P – AL KHAWARIZMI - M
Text Mining Section 2: Introduction aux techniques NLP UM6P – AL KHAWARIZMI - MSDA Pr. T.RACHAD 2020/2021 NLP? • L’objectif général des techniques de la NLP (Natural Language Processing) est d’utiliser les connaissances générales sur un langage naturel pour doter un document d’un format plus structuré et qui est lisible par une machine. • Les représentations obtenus à l’issus des opérations de la NLP sont souvent transitoires, car ils ne permettent pas de résoudre des problèmes spécifiques. • Des traitement supplémentaires sont souvent sollicités pour avoir un model représentatif qui permet de réaliser aisément des opérations de découverte de patterns dans les documents. Techniques de la NLP • Les techniques de la NLP utilisent la stratégie traditionnelle de diviser pour régner en subdivisant le problème original en plusieurs sous-tâches à résoudre indépendamment. • Les techniques les plus courantes de la NLP sont: • La segmentation (Tokenization ) • Les analyses morphologiques (racinisation et lemmatisation) • L’étiquetage morpho-syntaxique (POS tagging), • L’analyse syntaxique (syntactic parsing) • L’analyse sémantique Processus NLP Analyse Syntaxique Analyse Sémantique Analyse morphologique et Lexicale Analyse Pragmatique Informations sur le contexte Règles sémantiques Grammaire Lexique Analyse Morphologique • L’analyse morphologique a comme objectif principal d’avoir une normalisation des mots contenus dans un texte en identifiant leurs formes canoniques. • Une forme canonique est un mot qui correspond à la forme réduite commune de toutes ses dérivées. • La segmentation, la racinisation et la lemmatisation sont les techniques déployées pour récupérer la forme canonique d’u mot. Analyse Morphologique (Segmentation) • La segmentation (tokenization) est le processus de subdivision des données texte en des unités linguistiques plus simples à manipuler et qui sont appelées tokens( souvent des mots). • D’autre termes qui sont reliés à la segmentation : • Bigrams: les tokens qui se composent de deux mots consécutifs. • Trigrams: les tokens qui se composent de trois mots consécutifs. • Ngrams: les tokens qui se composent d'un nombre «N» de mots consécutifs. • Souvent les tokens obtenus doivent être nettoyés avant de passer aux opérations suivantes du prétraitement: enlever la ponctuation, enlever les termes non significatifs( stopwords), etc. Analyse Morphologique (Racinisation) • La racinisation ou la désuffixation (Stemming en anglais) est un algorithme qui permet d’éliminer le préfixe ou le suffixe d’un mot afin d’obtenir sa racine (ou radical) • Il existe plusieurs algorithmes qui peuvent êtres utilisées pour réaliser la racinisation des mots: • En anglais: Porter, Lovins. • En français: Carry, Porter, Unine • En arabe: Khoja, Alkhalil…. • Algorithmes génériques: Paice/Husk Analyse Morphologique (Lemmatisation) • Les algorithmes de racinisation sont peu efficaces, c’est pourquoi qu’il faut s’assurer que la forme résultante est un mot connu dans un dictionnaire. • La lemmatisation permet d’extraire à partir d’un mot (verbe, adjectif…) sa forme canonique (lemme) enregistrée dans les dictionnaires de la langue. • Plusieurs dictionnaires sont disponibles dans plusieurs langues pour réaliser les opérations de lemmatisation: • SpaCy • TextBlob • WordNet • Wordweb • …Pour plus de dictionnaires consulter http://www.nltk.org/nltk_data/ Analyse lexicale (Étiquetage morpho-syntaxique) • L’étiquetage morpho-syntaxique ou POS Tagging (Part of Speech Tagging) est l'annotation des mots en fonction du rôle qu'ils jouent dans la phrase dans laquelle ils apparaissent. • Les étiquettes les plus courantes pour le pos tagging sont: article, nom, verbe, adjectif, préposition, nombre et nom propre. • Ça peut consister également à l’extraction du sens exacte de chaque mot dans une phrase. Analyse lexicale (Étiquetage morpho-syntaxique) Analyse lexicale (Étiquetage morpho-syntaxique) • Plusieurs techniques peuvent être utilisées pour la réalisation de l’étiquetage morpho-syntaxique: • Etiquetage à base de règles qui utilise un dictionnaire ou une base de données lexicale afin de récupérer toutes les étiquettes possibles d’un mot. Par la suite un certain nombre de règles (expression régulières, Brill tagging …) seront exécutées pour et identifier l’étiquette la plus adéquate en se basant sur le contexte du mot (les n mots précédents et les n mots suivants). • Etiquetage stochastique qui affecte à un mot l’étiquette qui occurre fréquemment avec le mot ou l’étiquette la plus adaptée aux étiquettes attribuées aux termes précédents (Ngrame, CRF, HMM, Baum-Welch…). • Etiquetage à base de deep learning (RNN) Analyse syntaxique • l'analyse syntaxique est le processus d'analyse d’une expression texte conformément aux règles d’une grammaire. • L’objectif est d’extraire une représentation structurelle des relations entre les composantes d’une expression texte (les phrases, les mots ou les symboles) souvent sous forme d’une arborescence. • L’exemple suivant illustre l’utilisation d’une petite grammaire pour l’identification de la structure de l’expression arithmétique(8 + 6) ÷ 4. Analyse syntaxique (Applications) Applications: • Extraction d’informations • Réponse automatique aux questions • Résumé de document texte • Simplification d’expression • Traduction automatique • … Analyse syntaxique (Approches) • Plusieurs approches sont possibles • Approches basées sur des règles grammaticales. • Approches statistiques à base de machine learning. • Approches hybrides comminant les deux approches précédentes. Analyse syntaxique (approches basées sur des règles) • En NLP, la construction de l’arborescence à partir d’une grammaire peut être réalisée avec l’une des deux approches suivantes: • En se basant sur une grammaire syntagmatique qui permet d’identifier les unités lexicales d’une expression texte (noms, verbes, adjectifs…) et les regrouper en propositions ou phrases simples (phrase nominale, phrase verbale, phrase adjectif…) qui seront regroupées à leur tour en phrases plus complexes. • En se basant sur une grammaire de dépendance qui permet de mettre en évidence les liens syntaxiques entre les unités lexicales d’une expression texte (par exemple pour un verbe on peut identifier son sujet, son objet direct….) Analyse syntaxique (approches basées sur des règles) Analyse syntaxique (approches basées sur des règles) • Plusieurs implémentations sont proposées • Grammaire syntagmatique: PSG (Phrase Structure Grammar) • Grammaire de dépendances: Meaning-Text Theory, Link Grammar, Constraint Dependency Grammar, Extensible Dependency Grammar…. • Plusieurs grammaires à base de règles sont proposées pour plusieurs langues: • Lexical Functional Grammar (LFG) , • Head-Driven Phrase Structure Grammar (HPSG) LinGO Matrix framework, • Lexicalized Tree Adjoining Grammar XTAG. èIl est encore très difficile de couvrir toutes les règles syntaxiques qui contrôlent la grammaire d’une langue. Des ambiguïtés peuvent être produites lors de l’opération d’analyse syntaxique (comment choisir). Analyse syntaxique (Approches statistiques) • Le machine learning appliqué à la NLP vise à découvrir (à partir de grandes bases de données linguistiques ‘’specialisées’’) des modèles syntaxiques qui permettent l'analyse des phrases d'entrée. • Les deux approches classiques sont possibles: • L’approche supervisée • L’approche non supervisée Analyse syntaxique (Approches statistiques) • L’approche d’analyse syntaxique supervisée nécessite des données qui sont déjà annotées ``manuellement``. • Donc à partir d’un ensemble de couples (x, y) tel que x est une phrase et y est un arbre syntaxique, on doit découvrir les modèles permettant d’attribuer un arbre syntaxique à chaque nouvelle phrase. • Trois modèles sont possibles pour définir un analyseur syntaxique avec cette approche : • Modèle à base de transitions: l’analyseur syntaxique constitue graduellement l’arbre syntaxique en exécutant un certain nombre de transitions. À chaque étape, la transition qui a le plus grand score est choisie parmi toute les transition possible. • Modèle a base de graphe: trouver l'arbre syntaxique qui possède le score le plus élevé à partir d'un graphe qui représenté toutes les relations syntaxiques possibles entre les éléments d’une expression. • L’approche hybride (ensemble). Analyse syntaxique (Approches statistiques) • L’approche d’analyse syntaxique non supervisée permet de résoudre le problème d'analyse en induisant des règles grammaticales cachées, leurs probabilités et des arbres syntaxiques à partir de données linguistiques non annotées. • Généralement, deux stratégies sont utilisées: • L’attraction lexicale des mots(Yuret, 1998) • Bootstrapping, c'est-à-dire guider l'apprentissage à partir des structures les plus simples et augmenter progressivement la complexité des phrases pour avoir une représentation complète(Spitkovsky et al., 2010). L’analyse sémantique • L’objectif de l’analyse sémantique est d’extraire le sens contenu (caché) dans des expressions texte. • Ça doit commencer par une analyse sémantique lexicale pour extraire les sens « possibles » de chaque mot individuellement. • Par la suite, découvrir les liaisons lexicales entre les mots pour extraire leur sens exacte. • Finalement, constituer le sens exacte d’une expression en fonctions des sens des mots qui la composent et en fonction du contexte. L’analyse sémantique (Approches) • Plusieurs approches sont possible: • Approches logiques: permettent de déduire une représentation formelle de la sémantique d’une phrase en se basant sur la logique des prédicats ou la logique propositionnelle. • Approches lexicales: formalisation des liens lexicaux-sémantiques entre les concepts et les entités d’une langue à travers des schémas lexicaux sous forme de graphes ou de représentation en réseau. • Approches statistiques: Utilisations des algorithmes du machine learning pour l’automatisation de la découverte du sens contenu dans des expressions ou des documents texte. • Approches hybrides L’analyse sémantique (Approche lexicale) • L’ analyse sémantique lexicale produit une représentation formelle du sens contenue dans une expression texte en se basant sur les notions d’entité, concept, relation et prédicat. • Entités: Des individus du monde réel(un emplacement (Casablanca), une personne ( Bill gates), une date (01/01/2021)…) • Concepts: Catégorisation d’individus (Person, Date, City, Country….) • Relations: liaisons entre les uploads/Management/ tm2-nlp.pdf
Documents similaires










-
22
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 15, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.5189MB