Traitement automatique du langage naturel République Algérienne démocratique et
Traitement automatique du langage naturel République Algérienne démocratique et populaire Ministère de l’enseignement supérieur et de la recherche scientifique Ecole nationale supérieure d’informatique (ESI, ex. INI), Alger Support de cours Ecole nationale supérieure d’informatique (ESI, ex. INI), Alger, Algérie ARIES Abdelkrime COPYRIGHT École nationale Supérieure d’Informatique (ESI, ex. INI), Alger, Algérie Support de cours AUTEUR ARIES Abdelkrime Laboratoire de la Communication dans les Systèmes Informatiques (LCSI) Première édition : septembre 2021 Projet sur Github : https://github.com/projeduc/ESI_2CS_TALN Traitement automatique du langage naturel Attribution 4.0 International (CC BY 4.0) https://creativecommons.org/licenses/by/4.0/deed.fr Vous êtes autorisé à : Partager ―copier, distribuer et communiquer le matériel par tous moyens et sous tous formats Adapter ―remixer, transformer et créer à partir du matériel pour toute utilisation, y compris commerciale. Selon les conditions suivantes : Attribution ―Vous devez créditer l’Œuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l’Oeuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l’Offrant vous soutient ou soutient la façon dont vous avez utilisé son Oeuvre. Pas de restrictions complémentaires ―Vous n’êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser l’Oeuvre dans les conditions décrites par la licence. i ii CRÉDITS Révision : — ZERROUKI Taha (taha_zerrouki@hotmail.com) : Docteur en informatique, ESI, Alger, Algérie. Maître de conférence, université de Bouira, Algérie. Couverture : — Image du robot : https://pixabay.com/photos/futuristic-robot-cyborg-3308094/ (sous la licence Pixabay). — Image des livres : https://pixy.org/5778589/ (sous la licence CC0). — Police du titre : Euphoria Script (Google fonts) — Logiciel d’édition d’image : Gimp Édition : — Texte : L AT EX et TeXstudio — Images : Inkscape et krop — Polices : CrimsonText et SourceCodePro (Google fonts) iii iv TABLE DES MATIÈRES Traitement automatique du langage naturel 0 Pages préliminaires i Information générale i Copyright . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i Crédits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii Contenu et listes iii Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v Liste des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi Liste des algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Liste des abréviations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv Contenu 1 1 Introduction 1 1 Histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Niveaux de traitement d’un langage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 3 Applications du TALN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4 Défis du TALN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2 Traitements basiques du texte 19 1 Traitements sur les caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2 Segmentation du texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3 Normalisation du texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4 Filtrage du texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5 Morphologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3 Modèles de langage 31 1 Modèle N-gramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2 Modèles neuronaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4 Étiquetage morpho-syntaxique 39 1 Étiquetage de séquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2 Ressources pour l’étiquetage morpho-syntaxique . . . . . . . . . . . . . . . . . . . . . . . . 41 3 Approches d’étiquetage morpho-syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 v 5 Analyse syntaxique 49 1 Structures syntaxiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2 Analyse des constituants . uploads/Science et Technologie/ esi-taln-20210919.pdf
Documents similaires
-
21
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Dec 22, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 6.0345MB