Enseignante : Ines Boujelben Les techniques TALN Les techniques TALN (Traitemen

Enseignante : Ines Boujelben Les techniques TALN Les techniques TALN (Traitement Automatique des langues Naturelles) Outils d’analyse de données textuelles Ines Boujelben Université de Sfax- Laboratoire Miracl MRSIM2A 1 Enseignante : Ines Boujelben Les techniques TALN Traitement Automatique du Langage Naturel : Un objectif… Objectif : Dialoguer naturellement avec une machine comme avec une personne. 2 Enseignante : Ines Boujelben Les techniques TALN TALN : … difficile à atteindre En 1950, Turing prédit que ça sera possible « dans 50 ans »  L’échéance est passée sans que la prédiction ne se réalise Le problème serait-il plus complexe que prévu ? 3 Enseignante : Ines Boujelben Les techniques TALN 1. Introduction au Traitement Automatique du Langage Naturel 2. Niveaux de traitements et principaux outils 3. Plateformes d’annotations linguistiques Plan 4 Enseignante : Ines Boujelben Les techniques TALN 1. Introduction au Traitement Automatique du Langage Naturel 2. Niveaux de traitements et principaux outils 3. Plateformes d’annotations linguistiques Plan TALN : Définition TALN : Principales applications (Traduction, Correction, OCR,…) 5 Enseignante : Ines Boujelben Les techniques TALN TALN : Définition Définition (Traitement Automatique du Langage Naturel (TALN)) L’ensemble des recherches et développements visant à modéliser et reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication.  Discipline à cheval entre la linguistique et l’informatique  vise à “faire parler les ordinateurs” et plus précisément, à leur donner les capacités linguistiques d’un être humain.  Possède des zones de recouvrement avec l’Intelligence Artificielle 6 Enseignante : Ines Boujelben Les techniques TALN TALN: Principales Applications Quelles sont les applications aujourd’hui utilisées mettant en œuvre les recherches en Traitement Automatique du Langage Naturel ? 7 Enseignante : Ines Boujelben Les techniques TALN Traduction Automatique Intérêt applicatif évident, mais tâche particulièrement difficile Qualité actuelle pas exceptionnelle mais suffisante pour être utile  Plusieurs systèmes de traduction en ligne existent déjà, ex. : - Reverso (http://www.reverso.net) - Babel Fish (http://fr.babelfish.yahoo.com) - Systran (http://www.systran.fr/traduction-en- ligne-gratuite) - Google traduction (http://translate.google.fr) Il est probable que la TA fasse l’objet d’améliorations importantes dans les années à venir. 8 Enseignante : Ines Boujelben Les techniques TALN Classification documents, résumé automatique Filtrage/classification d'information Résumé automatique, pour un seul document, pour plusieurs documents sur le même sujet - (Maâloul, 2012) - (Keskes, 2015) Reconnaissance des entités nommées (Fehri, 2011), (Mesfar, 2008), extraction de relations entre entités nommées (Alotayq, 2013), (boujelben, 2015), extraction des évènements, etc. 9 Enseignante : Ines Boujelben Les techniques TALN Correction orthographique, grammaticale… Correction orthographique - Intégrée à toute application informatique impliquant la rédaction - Correction basée sur des lexiques Ex : traitement de texte, courrier électronique, navigateur Internet (zone de saisie) Correction grammaticale -Les meilleures applications fonctionnent bien mais sont payantes - Actuellement aucune application libre pour le français Atelier d’aide à la rédaction - Orthographe, grammaire, style… Ex : Antidote pour le français (http://www.antidote.info) 10 Enseignante : Ines Boujelben Les techniques TALN Reconnaissance de caractères (OCR) (OCR pour Optical Character Recognition) 1929 - Première machine OCR créée par l’ingénieur allemand Gustav Tauschek  Domaine actif de recherche en informatique depuis la fin des années 1950. TALN Utilisé dans les post-traitements : - Règles linguistiques et contextuelles - Dictionnaires de mots, de syllabes, de trigrammes  De nombreuses applications fonctionnelles libres ou payantes existent : C’est aussi un service : Société Jouve (cf. http://www.jouve.fr) 11 11 Enseignante : Ines Boujelben Les techniques TALN Reconnaissance de la parole  Discipline ayant fait des progrès considérables. Grandes étapes : Segmentation du flux continu de paroles en unités discrètes Identification du phonème correspondant à chaque unité Regroupement des unités pour constituer des mots Prise en compte de la syntaxe pour finaliser le texte écrit  Logiciels de dictée vocale (Via Voice, Dragon Dictate…) Reconnaissance de la parole ou commande vocale (Reconnaissance vocale de Windows, Systèmes de navigation routière GPS, Smartphone…)  Prototype Google de sous-titrage automatique de Youtube. 12 Enseignante : Ines Boujelben Les techniques TALN Synthèse de la parole  Créer de la parole artificielle à partir d’un texte quelconque. Ces systèmes ont largement franchi le seuil de l’intelligibilité permettant leur utilisation.  Difficultés : - désambiguïsation des homographes hétérophones (est,plus..) - gestion de la prosodie (intonation, rythme et intensité, la prosodie)…  Démonstrations en ligne : - Acapela Group (http://www.acapela-group.fr/ Text-to-speech-interactive-demo.html) - Loquendo (http://tts.loquendo.com/ttsdemo) 13 Enseignante : Ines Boujelben Les techniques TALN Reconnaissance, Synthèse ... Reconnaissance et Synthèse de la parole pour interfaces vocales Réservation automatisée de billets (train, avion) Téléphonie mobile, messagerie vocale Systèmes de renseignements automatisés  Reconnaissance vocale et Traduction automatique Language-to-Language Translation (Karlsruhe Institute of Technology, Allemagne) Traduction temps réel pour téléphone (Microsoft, stade expérimental) OCR et Traduction automatique Prototype Google d’une fonction en temps réel permettant de prendre en photo un morceau de texte et d’en obtenir la traduction. 14 Enseignante : Ines Boujelben Les techniques TALN Recherche d’information  Moteurs de recherche : Google (http://www.google.com) altavista (http://fr.altavista.com) Yahoo ! (http://fr.yahoo.com) bing (http://www.bing.com) exalead (http://www.exalead.com) Wikio (http://www.wikio.fr)  Mise en œuvre minimale de technologies du TALN (lemmatisation, détection des expressions composées, thesaurus, réseaux sémantiques…) 15 Enseignante : Ines Boujelben Les techniques TALN 1. Introduction au Traitement Automatique du Langage Naturel 2. Niveaux de traitements et principaux outils 3. Plateformes d’annotations linguistiques Plan 2.1. Schéma général 2.3. Traitement morphologique 2.4. Traitement syntaxique 2.2. Traitement phonétique 16 Enseignante : Ines Boujelben Les techniques TALN Schéma général Chaîne plausible de traitement des langues naturelles par une personne () Psycholinguistique : Les systèmes de TALN complets tentent de reproduire cette architecture.  Certaines applications ne font intervenir qu’un sous-ensemble de ces traitements. 17 Enseignante : Ines Boujelben Les techniques TALN Schéma général Niveaux de traitement d’une application du TALN Dans le cas où l’entrée du système est vocale il faut opérer un traitement phonétique. Traitement phonétique Traitement morphologique Déterminer les informations grammaticales associées à chaque mot considéré isolément(traitement morphologique) Traitement syntaxique Le traitement syntaxique consistant à extraire les relations grammaticales que les mots et groupes de mots entretiennent entre eux. Traitement sémantique Analyser le sens de la phrase. Traitement pragmatique Interpréter la phrase en fonction des connaissances générales sur le monde et de la situation de communication. 18 Enseignante : Ines Boujelben Les techniques TALN Problème de l’ambiguïté  Comment déterminer le genre du mot livre dans les phrases suivantes : 1 J’ai lu un livre 2 Il ne s’agit pas de livres mais de lires → par un traitement morphologique ?  Pour la première phrase, il faut repérer que livre est précédé de l’article un → traitement syntaxique !  Pour la seconde, il faut intégrer des connaissances sur le monde et la situation de communication → traitement pragmatique ! ! 19 Enseignante : Ines Boujelben Les techniques TALN Problème de l’ambiguïté Sémantique lexicale: Le même mot peut dénoter différents objets. étoile : célébrité ou astre Partie du discours (catégorie morphosyntaxique): Le même mot peu avoir différentes catégories. la : pronom, nom ou déterminant ? Phonologique: Le même signal sonore peut avoir plusieurs interprétations possibles : Recognise speech ou Wreck a nice peach ??  L’ambiguité est présente à tous les niveaux linguistiques. Enseignante : Ines Boujelben Les techniques TALN Problème de l’ambiguïté La belle ferme la porte Syntaxe: La même phrase peut avoir plusieurs analyses syntaxiques Jean regarde (la fille avec un télescope) Jean ((regarde la fille) avec un télescope) Sémantique phrastique: La même phrase peut avoir plusieurs analyses sémantiques.  L’ambiguité est présente à tous les niveaux linguistiques. Enseignante : Ines Boujelben Les techniques TALN Traitement phonétique  À partir d’une entrée vocale il faut essentiellement extraire deux informations linguistiques : Les phonèmes - sons successifs qui constituent les mots. (ex :chapeau comprend quatre phonèmes ch / a / p / eau) La prosodie - intonation, rythme et intensité permettant, par exemple, de distinguer une assertion, une question et une réponse.  Les phonèmes doivent être regroupés pour constituer des mots. 22 Enseignante : Ines Boujelben Les techniques TALN Traitement morphologique Morphologie : étude de la formation des mots à partir d’unités plus petites appelées morphèmes. - Par exemple, le mot lapins est composé de deux morphèmes : 1 La base ou racine (lapin) 2 un suffixe, la désinence du pluriel (s) Morphème : forme minimum douée de sens, libre ou liée à une autre forme Morphèmes lexicaux : ou lexèmes, correspondent grossièrement aux entrées d’un dictionnaire. Morphèmes grammaticaux : ou affixes (préfixes, suffixes, infixes) n’apparaissent jamais isolés, mais se combinent aux lexèmes. 23 Enseignante : Ines Boujelben Les techniques TALN  Les phénomènes morphologiques se subdivisent en deux groupes : la flexion : phénomènes purement grammaticaux (genre, nombre, personne, mode, temps) n’affectant pas la catégorie syntaxique Ex : chat → chats ; chante → chantait la dérivation : permet de créer de nouvelles unités lexicales. Ex : constituer → constitution → constitutionnel → anticonstitutionnel → anticonstitutionnellement  Dans un système de TALN, l’analyse morphologique a pour objectif de : 1 - Reconnaître la catégorie morphologique et les propriétés grammaticales des mots 2 - Proposer une lemmatisation 3 - Reconnaître les entités nommées (noms uploads/Sante/ chap1-pdf.pdf

  • 16
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jan 20, 2022
  • Catégorie Health / Santé
  • Langue French
  • Taille du fichier 0.9017MB