Université de Carthage Faculté des Sciences de Bizerte Département Informatique
Université de Carthage Faculté des Sciences de Bizerte Département Informatique Mastère de Recherche Traitement Automatique des Langues (TAL) Dr. Ing. Hela mahersia Email: helamahersia@yahoo.fr 2 Introduction Partie 1 Plan Défis2 Applications Motivation 3 1 Motivation TAL ? Chapitre 1 4 TAL : Objectif 5 L'objectif du TAL est la conception de logiciels capables de traiter de façon automatique des données exprimées dans une langue «naturelle» L’intelligence artificielle 6 Motivation 7 Le traitement automatique des langues (TAL) étudie la composante langagière de l’intelligence artificielle Une caractéristique la plus distinctive de l’intelligence humaine : sa capacité à comprendre/utiliser des langues complexes C’est une composante primordiale dans le test de Turing Test de Turing 8 Turing (1950) "Computing machinery and intelligence" Les machines sont-elles capables de penser? Les machines peuvent-elles avoir un comportement intellectuel ? Le test: si la conversation avec la machine ne peut pas être différenciée de la conversation humaine on peut dire que la machine possède de l’intelligence Durée du Test: 5min de conversation But: Deviner qui est la personne et qui est la machine Exemple : Question-réponse avec Watson 9 Exemple : Question-réponse avec Watson 10 Traitement Automatique des Langues 11 Compréhension : Encodage, stockage de documents Classification de documents Extraction d'information Recherche d'information Génération : Restitution Visualisation Résumé Synthèse 2 Chapitre 1 Applications du TAL 12 Reconnaissance de caractères (OCR) 13 Principe général : Numérisation de documents écrits (scanner) en images Application de techniques de reconnaissance de formes (lettres) à l'aide d'apprentissage (réseaux de neurones, HMM) Exploitation d'un modèle de langage (dont des ressources : dictionnaires, grammaires, etc.) pour déterminer l'hypothèse la plus probable Applications pratiques : dématérialisation de documents (bibliothèques), formulaires (chèques, administration), adresses pour le tri postal, identification d'immatriculation Correction orthographique / grammaticale 14 Principe général : Identifier les mots (tokenization) Correction orthographique : mots qui n'appartiennent pas au dictionnaire et qui ne sont pas en langue étrangère, ni des noms propres, ni des chiffres, ni des sigles... Correction grammaticale : déterminer la fonction des mots au sein de la phrase (déterminant, nom, verbe, adverbe, etc.) puis réaliser une analyse syntaxique à l'aide de grammaires Applications pratiques : correion de document rédiger par des aitudian (exemple de fautes !) Traduction automatique 15 Principe général : Sélection des langues source et cible Deux stratégies (actuellement) : • Utilisation d'un modèle de langage pour la source et pour la cible, éventuellement d'un modèle « pivot » • Recherche des traductions possibles et probables Applications pratiques : traduction de documents, dictionnaires bilingues, recherche d'informations multilingue Extraction et recherche d'informations 16 Principe général : Enregistrer des documents (ou leurs adresses) et déterminer un ensemble de caractéristiques selon leur analyse Construire des indices accessibles et régulièrement mis à jour Répondre à la demande aux requêtes par sélection des documents les plus pertinents Applications pratiques : recherche en ligne, veille, surveillance, résumé automatique, classification de documents Reconnaissance de la parole 17 Principe général : Traitement acoustique du flux audio Analyse du signal (transformée de Fourier) Reconnaissance par modèles (appris : HMM ou réseaux de neurones), avec implémentation de modèle de langage qui donne la séquence la plus probable Applications pratiques : dictaphones (smartphones), serveurs vocaux (hotline), transcriptions automatiques (sous-titres, notamment pour les malentendants) Synthèse vocale 18 Principe général : Sélection de la langue cible Transcription phonétique du texte Modélisation de l'intonation et de la prosodie Production du signal audio Applications pratiques : transports, serveurs vocaux (hotlines), systèmes de navigation GPS, vocalisation (notamment pour malvoyants), personnages de jeux Défis du TAL Chapitre 1 19 Difficultés à surmonter 20 Interpréter une phrase/un document correctement est une tâche très complexe à automatiser Pour un être humain, c’est une tâche qui ne requiert aucun effort Mais même pour nous, certains cas peuvent être une casse-tête Quelques sources de difficultés à surmonter: Ambiguïté Métaphores Variations dans le temps Ambiguïté 21 Les langues naturelles étant ambiguës, pour une même phrase plusieurs analyses sont possibles plusieurs interprétations syntaxiques Exemple : Métaphores 22 Certains mots sont utilisés d’une façon métaphorique Exemple: Cette utilisation de mots rend une approche à base de règles prédéfinies très difficile Variantions dans le temps 23 L’utilisation des mots peut varier dans le temps Exemple : sort of Utilisation originale: what sort of animal did you see Utilisation plus moderne: he sort of understood what was going on Apparition de nouveaux mots: internet, wifi… Pour résoudre ces problèmes… 24 NLP : tâche difficile, Quels pré-requis? Connaissance du langage Connaissance du mot Comment on reconnait ? Modèles probabiliste construits à partir des données du langage • P(« house » →« maison ») élevée • P(« avocat général » →« the general avocado ») faible L’avenir… 25 ? MERCI POUR VOTRE ATTENTION DES QUESTIONS ? 26 uploads/Management/ tal1-helamahersia.pdf
Documents similaires










-
20
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 18, 2021
- Catégorie Management
- Langue French
- Taille du fichier 4.0705MB