TAL : Traitement Automatique des Langues Cours 10 Master LFA, 2011/2012 TAL  L

TAL : Traitement Automatique des Langues Cours 10 Master LFA, 2011/2012 TAL  LeTraitement automatique de la langue naturelle (TALN) ou des langues (TAL) est une discipline à la frontière de la linguistique, de l'informatique et de l'intelligence artificielle.  Elle concerne la conception de systèmes et techniques informatiques permettant de manipuler le langage humain Paris-Sorbonne, Master LFA 2011/2012 2 informatiques permettant de manipuler le langage humain dans tous ses aspects. Objectifs  Traduction automatique : historiquement la première application dès les années 1950. T exte écrit Parole • correction orthographique • aide à la reformulation • recherche d’information fouille textuelle reconnaissance vocale Paris-Sorbonne, Master LFA 2011/2012 3 Extraction / analyse • recherche d’information fouille textuelle • reconnaissance d'entités nommées • résolution d'anaphores • classification et catégorisation de documents • reconnaissance de l'écriture manuscrite • annotation morpho-syntaxique / sémantique reconnaissance du locuteur Génération • génération automatique de textes • résumé automatique synthèse de la parole Objets d’étude  Parole :  Onde sonore  Analyse par des méthodes statistiques afin de :  identifier le locuteur  transcrire les paroles en texte  Texte : Paris-Sorbonne, Master LFA 2011/2012 4  Texte :  Une suite de caractères Graphologie Lexicologie Morpho- syntaxe Sémantique Enonciation et pragmatique Symboles Mots (dictionnaires) Morphèmes, mots, phrases Mots, phrases Enoncé, texte Test de Turing (Alain Turing 1950)  Le test de Turing permet de déceler si un ordinateur est intelligent.  Un humain est placé est dans une pièce et discute par clavier interposé avec une personne et un ordinateur. A B Paris-Sorbonne, Master LFA 2011/2012 5 ordinateur.  Le test est considéré comme réussi si l’humain n’arrive pas à déterminer qui est l’autre humain et qui est l’ordinateur. Qui est l’humain, A ou B ? Réelle intelligence vs intelligence simulée  Le test de Turing permet de savoir si le comportement de la machine est semblable à celui d’un être humain. On évalue le comportement extérieur de la machine, ce qui ne garantit pas forcément la présence d’intelligence ou une compréhension de la langue.  ELIZA – simulation d’entretien avec un psychothérapeute. Paris-Sorbonne, Master LFA 2011/2012 6  ELIZA – simulation d’entretien avec un psychothérapeute.  T estez-le sur : http://elizia.net/  Visitez le lien « la supervision » en bas de la page : ici on peut voir la liste des règles qui constituent l’ « intelligence » d’Elize :  dans la première colonne nous avons des mots-clés ou des situations, et dans la deuxième colonne nous avons les réactions possibles d’Elize.  le programme suit des règles simples, sans vraiment comprendre le discours humain. Traitement du texte  Au-delà d’imiter un comportement humain, un système devrait être capable de « comprendre » partiellement un texte : pouvoir identifier certains éléments textuels afin de les associer à des significations.  Pas de théorie linguistique opératoire (pour l’instant). Deux approches : Paris-Sorbonne, Master LFA 2011/2012 7  Deux approches : 1. Linguistique informatique : partir de la langue, étudier les exemples (échantillons observables), modéliser et concevoir des algorithmes pour un traitement automatique. 2. Informatique linguistique : partir de l’informatique et des mathématiques, appliquer les modèles existants à la langue, puis observer le résultat en espérant que ça marche. Approche statistique Approche utilisant des ressources linguistiques  Il s’appuient sur un formalisme mathématique.  Applicables à des corpus de très grande taille.  Indépendantes de la langue.  Ne nécessitent pas de connaissances linguistiques : le méthodes permettent d’observer la suite de caractères et des mots afin d’en trouver des régularités et pouvoir prédire certaines  Il s’agit de modéliser une certaine partie de la connaissance linguistique afin de la rendre exploitable par la machine  Exemple : dans un analyseur morpho- syntaxique, on peut introduire la règle :  SI on trouve une occurrence de « un » ou « une »,  ALORS c’est un article et le mot suivant est un nom. Paris-Sorbonne, Master LFA 2011/2012 8 mots afin d’en trouver des régularités et pouvoir prédire certaines propriétés.  Ne permettent pas de comprendre les phénomènes linguistiques.  Méthodes : n-grammes, apprentissage automatique (voir la suite).  Les résultats du système, notamment les erreurs, sont difficiles à expliquer et corriger. est un nom.  Dépendantes de la langue  Plus difficiles à mettre en place : obligent une conceptualisation des phénomènes linguistiques  Nécessitent plus de temps et plus de travail (par des linguistes)  Les résultats du système, notamment les erreurs, peuvent être expliqués et corrigés facilement. Codage des caractères  Les caractères sont stockés suivant un code. Chaque caractère correspond à un numéro.  Code ASCII (American Standard Code for Information Interchange) : comporte 128 codes (stocké sur 7 bits), dont 95 affichables.  Windows-1252 ou CP1252 : utilisé par Windows dans les principaux langues d’Europe de l’Ouest (dont le français). Paris-Sorbonne, Master LFA 2011/2012 9  Windows-1252 ou CP1252 : utilisé par Windows dans les principaux langues d’Europe de l’Ouest (dont le français).  UTF-8 :  chaque caractère est stocké sur 1, 2, 3 ou 4 octets  compatible avec ASCII  permet de représenter tous les alphabets, notamment les langues asiatiques et le cyrillique  actuellement autour de 100 000 caractères (extensible)  UTF-16, UTF-32 La langue comme un objet statistique  Fréquence des caractères en français : Paris-Sorbonne, Master LFA 2011/2012 10 La langue comme un objet statistique  Fréquence des caractères en anglais : Paris-Sorbonne, Master LFA 2011/2012 11 Paris-Sorbonne, Master LFA 2011/2012 12 Source : cours de Jean Veronis La langue comme un objet statistique  Avec ces données, en observant les fréquences des caractères dans un texte, on peut détecter automatiquement la langue.  Cependant, cette méthode dépend de la taille du document et du type de texte : un texte avec beaucoup de verbes en 2e personne : plus de Paris-Sorbonne, Master LFA 2011/2012 13  un texte avec beaucoup de verbes en 2e personne : plus de « z »  le menu d’un restaurant : plus de « € »  un texte sur la carrière de Sarkozy : plus de « z » et « y » N-grammes  Les caractères sont des uni-grammes.  Bi-grammes : des combinaisons de deux caractères :  informatique -> in nf fo or rm ma at ti iq qu ue  Tri-grammes : des combinaisons de trois caractères :  informatique -> inf nfo for orm rma mat ati tiq iqu que Paris-Sorbonne, Master LFA 2011/2012 14  …  N-grammes  Pour détecter la langue d’un document, on va observer les fréquences des n-grammes dans le texte (plutôt que les simples uni-grammes). Bi-grammes les plus fréquentes Paris-Sorbonne, Master LFA 2011/2012 15 Tri-grammes les plus fréquentes Paris-Sorbonne, Master LFA 2011/2012 16 Source : Jean Veronis Identification de la langue  C’est un des problèmes les plus faciles en TAL : bons résultats sur des textes longs de plusieurs phrases.  Problème :  langues proches (tchèque et slovaque, anglais américain et anglais britannique) la différence entre une langue et un dialecte. Paris-Sorbonne, Master LFA 2011/2012 17  la différence entre une langue et un dialecte.  http://labs.translated.net/language-identifier/ - identification de la langue en ligne  pour le tester vous pouvez copier du texte à partir des différentes versions de Wikipédia. La langue comme un objet statistique  Nous avons vu la distribution des caractères, mais que peut-on dire sur la fréquence des mots dans un texte ?  La loi de Zipf (1949) : la fréquence d’un mot dans un texte est inversement proportionnelle à son rang. Paris-Sorbonne, Master LFA 2011/2012 18  C’est une loi empirique établie à partir des observations sur des textes.  Cas particulier de la loi de Pareto en économie. Paris-Sorbonne, Master LFA 2011/2012 19 Loi de Zipf : exemple  « Les hommes ne veulent pas ce qu’ils font, mais ce en vue de quoi ils font ce qu’ils font. » (Platon) ce 3 ils 3 font 3 qu' 2 les 1 4 Paris-Sorbonne, Master LFA 2011/2012 20 les 1 hommes 1 ne 1 veulent 1 pas 1 mais 1 en 1 vue 1 de 1 quoi 1 1 2 3 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Loi de Zipf : applications  Théorie de l’information : Claude Shanon (1948) essaye de quantifier l’information qui est transmise par chaque mot.  Dans la recherche d’informations, pendant l’indexation on supprime tous les mots insignifiants du document pour ne garder que les mots les plus « informatifs ». On suppose Paris-Sorbonne, Master LFA 2011/2012 21 garder que les mots les plus « informatifs ». On suppose alors que :  les mots les plus fréquents sont les moins informatifs. Ce sont généralement des mots grammaticaux ou des mots d’usage courant, qui apportent peu d’informations sur le contenu du document.  De même, les termes de fréquence faible ne sont pas pertinents pour décrire le contenu du document. En recherche d’informations : Luhn 1958  La courbe « fréquence uploads/Philosophie/ traitement-tal-gerard.pdf

  • 14
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager