Résumé automatique Multi-document et dynamique Thèse de doctorat de l'Universit
Résumé automatique Multi-document et dynamique Thèse de doctorat de l'Université Paris-Saclay préparée à l’université Paris-Sud École doctorale n°580 Sciences et Technologies de l’Information et de la Communication (STIC) Spécialité de doctorat: Informatique Thèse présentée et soutenue à Gif-sur-Yvette, le 20/09/2018, par Maâli Mnasri Composition du Jury : Sophie Rosset Directrice de Recherche, LIMSI CNRS Président Jean-Luc Minel Professeur Emérite, Université Paris Nanterre Rapporteur Juan-Manuel Torres-Moreno Maître de Conférences HDR, Université d’Avignon Rapporteur Antoine Doucet Professeur des Universités, Université de La Rochelle Examinateur Gaël de Chalendar Ingénieur chercheur, CEA LIST Directeur de thèse Olivier Ferret Ingénieur chercheur HDR, CEA LIST Encadrant scientifique NNT : 2018SACLS342 i Remerciements Je tiens à remercier tout d’abord mon directeur de thèse Gaël de Chalendar et mon encadrant scientifique Olivier Ferret pour leur disponibilité, leurs conseils et leur implication dans cette thèse. Mes remerciements vont également à Jean-Luc Minel et Juan-Manuel Torres- Moreno pour avoir accepté de rapporter sur cette thèse et à Antoine Doucet et Sophie Rosset pour leur participation au jury. Je remercie vivement aussi Aurélien Bossard et Aurélien Max pour leurs conseils précieux lors de la soutenance à mi-parcours. Enfin, je tiens à exprimer ma gratitude à ma famille notamment mes parents et mon mari pour leur encouragement et leur soutien. Table des matières 1 Introduction 1 1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Les enjeux du résumé automatique . . . . . . . . . . . . . . . . . . 2 1.3 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 Plan de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 État de l’art 7 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Les types des résumés automatiques . . . . . . . . . . . . . . . . . . 8 2.2.1 Résumé générique et résumé orienté . . . . . . . . . . . . . . 8 2.2.2 Résumé indicatif et résumé informatif . . . . . . . . . . . . . 9 2.2.3 Portée du résumé . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.4 Résumé abstractif et résumé extractif . . . . . . . . . . . . . 9 2.3 Les méthodes du résumé par abstraction . . . . . . . . . . . . . . . 11 2.4 Les méthodes du résumé par extraction . . . . . . . . . . . . . . . . 11 2.4.1 Les critères de sélection des phrases du résumé . . . . . . . . 12 2.4.2 Exploitation et intégration des critères . . . . . . . . . . . . 16 2.5 Le résumé multi-document et le résumé de mise à jour . . . . . . . 21 2.5.1 Résumé multi-document . . . . . . . . . . . . . . . . . . . . 21 2.5.2 Résumé dynamique : une dimension temporelle . . . . . . . 23 2.6 L’évaluation du résumé automatique . . . . . . . . . . . . . . . . . 25 2.6.1 ROUGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.6.2 PYRAMID . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.6.3 Autres méthodes d’évaluation automatique . . . . . . . . . . 27 2.7 Synthèse : tableau comparatif des travaux récents en RA . . . . . . 29 2.7.1 Résumé multi-document . . . . . . . . . . . . . . . . . . . . 31 2.7.2 Résumé dynamique . . . . . . . . . . . . . . . . . . . . . . . 37 2.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 iv Table des matières 3 Intégration de la similarité sémantique pour le RA 45 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2 Représentation et similarité sémantique de phrases . . . . . . . . . 47 3.2.1 Que sont les word embeddings ? . . . . . . . . . . . . . . . . 49 3.2.2 Le framework Word2Vec . . . . . . . . . . . . . . . . . . . . 51 3.2.3 L’algorithme GloVe . . . . . . . . . . . . . . . . . . . . . . . 51 3.2.4 Modification des word embeddings : Retrofitting . . . . . . . 53 3.2.5 Calcul de la similarité de phrases à partir des word embeddings 55 3.3 Clustering sémantique . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.4 Sélection de phrases pour le résumé mis-à-jour . . . . . . . . . . . . 59 3.4.1 Formalisation du problème . . . . . . . . . . . . . . . . . . . 59 3.4.2 ICSISumm pour le résumé mis-à-jour . . . . . . . . . . . . . 61 3.4.3 Prise en compte du clustering sémantique . . . . . . . . . . 61 3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4 Évaluation de l’intégration de la similarité sémantique 65 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.2 Cadre d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.2.1 Méthode d’évaluation . . . . . . . . . . . . . . . . . . . . . . 65 4.2.2 Données d’évaluation . . . . . . . . . . . . . . . . . . . . . . 66 4.2.3 Étalonnage des paramètres . . . . . . . . . . . . . . . . . . . 67 4.3 Limite supérieure des systèmes extractifs . . . . . . . . . . . . . . . 68 4.3.1 Génération des résumés Oracle . . . . . . . . . . . . . . . . 68 4.3.2 Évaluation des résumés Oracle . . . . . . . . . . . . . . . . . 69 4.4 Systèmes évalués . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.4.1 Baselines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.4.2 Systèmes de l’état de l’art . . . . . . . . . . . . . . . . . . . 71 4.4.3 Systèmes proposés . . . . . . . . . . . . . . . . . . . . . . . 72 4.5 Résultats et analyse . . . uploads/Science et Technologie/ mnasri-2018-archivage.pdf
Documents similaires
-
17
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 21, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 2.1366MB