Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

TAL : Traitement Automatique des Langues Cours 10 Master LFA, 2011/2012 TAL L

TAL : Traitement Automatique des Langues Cours 10 Master LFA, 2011/2012 TAL LeTraitement automatique de la langue naturelle (TALN) ou des langues (TAL) est une discipline à la frontière de la linguistique, de l'informatique et de l'intelligence artificielle. Elle concerne la conception de systèmes et techniques informatiques permettant de manipuler le langage humain Paris-Sorbonne, Master LFA 2011/2012 2 informatiques permettant de manipuler le langage humain dans tous ses aspects. Objectifs Traduction automatique : historiquement la première application dès les années 1950. T exte écrit Parole • correction orthographique • aide à la reformulation • recherche d’information fouille textuelle reconnaissance vocale Paris-Sorbonne, Master LFA 2011/2012 3 Extraction / analyse • recherche d’information fouille textuelle • reconnaissance d'entités nommées • résolution d'anaphores • classification et catégorisation de documents • reconnaissance de l'écriture manuscrite • annotation morpho-syntaxique / sémantique reconnaissance du locuteur Génération • génération automatique de textes • résumé automatique synthèse de la parole Objets d’étude Parole : Onde sonore Analyse par des méthodes statistiques afin de : identifier le locuteur transcrire les paroles en texte Texte : Paris-Sorbonne, Master LFA 2011/2012 4 Texte : Une suite de caractères Graphologie Lexicologie Morpho- syntaxe Sémantique Enonciation et pragmatique Symboles Mots (dictionnaires) Morphèmes, mots, phrases Mots, phrases Enoncé, texte Test de Turing (Alain Turing 1950) Le test de Turing permet de déceler si un ordinateur est intelligent. Un humain est placé est dans une pièce et discute par clavier interposé avec une personne et un ordinateur. A B Paris-Sorbonne, Master LFA 2011/2012 5 ordinateur. Le test est considéré comme réussi si l’humain n’arrive pas à déterminer qui est l’autre humain et qui est l’ordinateur. Qui est l’humain, A ou B ? Réelle intelligence vs intelligence simulée Le test de Turing permet de savoir si le comportement de la machine est semblable à celui d’un être humain. On évalue le comportement extérieur de la machine, ce qui ne garantit pas forcément la présence d’intelligence ou une compréhension de la langue. ELIZA – simulation d’entretien avec un psychothérapeute. Paris-Sorbonne, Master LFA 2011/2012 6 ELIZA – simulation d’entretien avec un psychothérapeute. T estez-le sur : http://elizia.net/ Visitez le lien « la supervision » en bas de la page : ici on peut voir la liste des règles qui constituent l’ « intelligence » d’Elize : dans la première colonne nous avons des mots-clés ou des situations, et dans la deuxième colonne nous avons les réactions possibles d’Elize. le programme suit des règles simples, sans vraiment comprendre le discours humain. Traitement du texte Au-delà d’imiter un comportement humain, un système devrait être capable de « comprendre » partiellement un texte : pouvoir identifier certains éléments textuels afin de les associer à des significations. Pas de théorie linguistique opératoire (pour l’instant). Deux approches : Paris-Sorbonne, Master LFA 2011/2012 7 Deux approches : 1. Linguistique informatique : partir de la langue, étudier les exemples (échantillons observables), modéliser et concevoir des algorithmes pour un traitement automatique. 2. Informatique linguistique : partir de l’informatique et des mathématiques, appliquer les modèles existants à la langue, puis observer le résultat en espérant que ça marche. Approche statistique Approche utilisant des ressources linguistiques Il s’appuient sur un formalisme mathématique. Applicables à des corpus de très grande taille. Indépendantes de la langue. Ne nécessitent pas de connaissances linguistiques : le méthodes permettent d’observer la suite de caractères et des mots afin d’en trouver des régularités et pouvoir prédire certaines Il s’agit de modéliser une certaine partie de la connaissance linguistique afin de la rendre exploitable par la machine Exemple : dans un analyseur morpho- syntaxique, on peut introduire la règle : SI on trouve une occurrence de « un » ou « une », ALORS c’est un article et le mot suivant est un nom. Paris-Sorbonne, Master LFA 2011/2012 8 mots afin d’en trouver des régularités et pouvoir prédire certaines propriétés. Ne permettent pas de comprendre les phénomènes linguistiques. Méthodes : n-grammes, apprentissage automatique (voir la suite). Les résultats du système, notamment les erreurs, sont difficiles à expliquer et corriger. est un nom. Dépendantes de la langue Plus difficiles à mettre en place : obligent une conceptualisation des phénomènes linguistiques Nécessitent plus de temps et plus de travail (par des linguistes) Les résultats du système, notamment les erreurs, peuvent être expliqués et corrigés facilement. Codage des caractères Les caractères sont stockés suivant un code. Chaque caractère correspond à un numéro. Code ASCII (American Standard Code for Information Interchange) : comporte 128 codes (stocké sur 7 bits), dont 95 affichables. Windows-1252 ou CP1252 : utilisé par Windows dans les principaux langues d’Europe de l’Ouest (dont le français). Paris-Sorbonne, Master LFA 2011/2012 9 Windows-1252 ou CP1252 : utilisé par Windows dans les principaux langues d’Europe de l’Ouest (dont le français). UTF-8 : chaque caractère est stocké sur 1, 2, 3 ou 4 octets compatible avec ASCII permet de représenter tous les alphabets, notamment les langues asiatiques et le cyrillique actuellement autour de 100 000 caractères (extensible) UTF-16, UTF-32 La langue comme un objet statistique Fréquence des caractères en français : Paris-Sorbonne, Master LFA 2011/2012 10 La langue comme un objet statistique Fréquence des caractères en anglais : Paris-Sorbonne, Master LFA 2011/2012 11 Paris-Sorbonne, Master LFA 2011/2012 12 Source : cours de Jean Veronis La langue comme un objet statistique Avec ces données, en observant les fréquences des caractères dans un texte, on peut détecter automatiquement la langue. Cependant, cette méthode dépend de la taille du document et du type de texte : un texte avec beaucoup de verbes en 2e personne : plus de Paris-Sorbonne, Master LFA 2011/2012 13 un texte avec beaucoup de verbes en 2e personne : plus de « z » le menu d’un restaurant : plus de « € » un texte sur la carrière de Sarkozy : plus de « z » et « y » N-grammes Les caractères sont des uni-grammes. Bi-grammes : des combinaisons de deux caractères : informatique -> in nf fo or rm ma at ti iq qu ue Tri-grammes : des combinaisons de trois caractères : informatique -> inf nfo for orm rma mat ati tiq iqu que Paris-Sorbonne, Master LFA 2011/2012 14 … N-grammes Pour détecter la langue d’un document, on va observer les fréquences des n-grammes dans le texte (plutôt que les simples uni-grammes). Bi-grammes les plus fréquentes Paris-Sorbonne, Master LFA 2011/2012 15 Tri-grammes les plus fréquentes Paris-Sorbonne, Master LFA 2011/2012 16 Source : Jean Veronis Identification de la langue C’est un des problèmes les plus faciles en TAL : bons résultats sur des textes longs de plusieurs phrases. Problème : langues proches (tchèque et slovaque, anglais américain et anglais britannique) la différence entre une langue et un dialecte. Paris-Sorbonne, Master LFA 2011/2012 17 la différence entre une langue et un dialecte. http://labs.translated.net/language-identifier/ - identification de la langue en ligne pour le tester vous pouvez copier du texte à partir des différentes versions de Wikipédia. La langue comme un objet statistique Nous avons vu la distribution des caractères, mais que peut-on dire sur la fréquence des mots dans un texte ? La loi de Zipf (1949) : la fréquence d’un mot dans un texte est inversement proportionnelle à son rang. Paris-Sorbonne, Master LFA 2011/2012 18 C’est une loi empirique établie à partir des observations sur des textes. Cas particulier de la loi de Pareto en économie. Paris-Sorbonne, Master LFA 2011/2012 19 Loi de Zipf : exemple « Les hommes ne veulent pas ce qu’ils font, mais ce en vue de quoi ils font ce qu’ils font. » (Platon) ce 3 ils 3 font 3 qu' 2 les 1 4 Paris-Sorbonne, Master LFA 2011/2012 20 les 1 hommes 1 ne 1 veulent 1 pas 1 mais 1 en 1 vue 1 de 1 quoi 1 1 2 3 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Loi de Zipf : applications Théorie de l’information : Claude Shanon (1948) essaye de quantifier l’information qui est transmise par chaque mot. Dans la recherche d’informations, pendant l’indexation on supprime tous les mots insignifiants du document pour ne garder que les mots les plus « informatifs ». On suppose Paris-Sorbonne, Master LFA 2011/2012 21 garder que les mots les plus « informatifs ». On suppose alors que : les mots les plus fréquents sont les moins informatifs. Ce sont généralement des mots grammaticaux ou des mots d’usage courant, qui apportent peu d’informations sur le contenu du document. De même, les termes de fréquence faible ne sont pas pertinents pour décrire le contenu du document. En recherche d’informations : Luhn 1958 La courbe « fréquence uploads/Philosophie/ traitement-tal-gerard.pdf