M´ ethodes d’apprentissage interactif pour la classification des messages courts

M´ ethodes d’apprentissage interactif pour la classification des messages courts Ameni Bouaziz To cite this version: Ameni Bouaziz. M´ ethodes d’apprentissage interactif pour la classification des messages courts. Autre [cs.OH]. Universit´ e Cˆ ote d’Azur, 2017. Fran¸ cais. ¡ NNT : 2017AZUR4039 ¿. HAL Id: tel-01590468 https://tel.archives-ouvertes.fr/tel-01590468 Submitted on 19 Sep 2017 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ ee au d´ epˆ ot et ` a la diffusion de documents scientifiques de niveau recherche, publi´ es ou non, ´ emanant des ´ etablissements d’enseignement et de recherche fran¸ cais ou ´ etrangers, des laboratoires publics ou priv´ es. UNIVERSITÉ CÔTE D'AZUR ÉCOLE DOCTORALE STIC SCIENCES ET TECHNOLOGIES DE L'INFORMATION ET DE LA COMMUNICATION T H È S E pour obtenir le titre de Docteur en Sciences de l'Université Côte d'Azur Mention : Informatique Présentée et soutenue par Ameni Bouaziz Méthodes d'apprentissage interactif pour la classi cation des messages courts Thèse dirigée par Frédéric Precioso préparée à l'I3S Sophia Antipolis soutenue le 19/06/2017 Jury : Rapporteurs : Laurent HEUTTE - Professeur, Univ. de Rouen Mathieu ROCHE - Chercheur HDR, Univ. Montpellier Directeur : Frédéric Precioso - Professeur, Univ. Côte d'Azur Président : Michael KRAJECKI - Professeur, Univ. de Reims Champagne Ardenne Examinateur : Dario MALCHIODI - Professeur, Univ. de Milan Encadrants : Célia da Costa Pereira - Maître de conférences, Univ. Côte d'Azur Christel Dartigues-Pallez - Maître de conférences, Univ. Côte d'Azur Invité : Philippe Van Den Bulke - Président de Semantic Groupig Company A ton âme, ma chère maman. Tu me manques ... ii Remerciements Au terme de ma thèse je tiens à remercier chaleureusement mon directeur de thèse Frédéric Precioso et mes deux co-encadrantes Célia da Costa Pereira et Christel Dartigues-Pallez sans qui ce travail n'aura pas pu être réalisé. Je leur exprime mon entière gratitude pour tout le temps qu'ils m'ont consacré et pour leurs conseils précieux qui m'ont permis d'avancer tout le long de ma thèse. Je les remercie aussi de m'avoir initiée au monde de la recherche scienti que et pour tout ce que j'ai appris d'eux en étant d'abord leur étudiante, puis leur stagiaire et en n leur doctorante. Je n'oublierai jamais également leurs qualités humaines que j'ai pu découvrir durant cette thèse. Je tiens à remercier ensuite le professeur Laurent Heutte de l'université de Rouen et Monsieur Mathieu Roche, chercheur HDR à l'université Montpellier d'avoir ac- cepté de rapporter cette thèse. Je remercie également le professeur Michael Kraje- cki de l'université de Reims Champagne Ardenne et le professeur Dario Malchiodi de l'université de Milan d'avoir accepté de faire partie du jury de ma soutenance. J'adresse aussi mes remerciements à Philippe Van Den Bulke, président de Semantic Grouping Company et également membre du jury pour avoir co nancé ma thèse. Un grand merci à toute l'équipe administrative du laboratoire I3S et d'une fa- çon particulière à Magali Richir pour avoir préparé mes missions et pour m'avoir accompagnée dans toutes mes démarches administratives Je remercie également tous les membres de l'équipe SPARKS du laboratoire I3S et en particulier ceux de l'équipe MinD que j'avais le plaisir de coutoyer durant ces années de thèse pour leur amitié. Mes remerciements s'adressent aussi à mon cher père pour avoir toujours cru en moi, pour son encouragement continu et son soutien dans toutes mes décisions. Merci in niment pour son grand amour et sa veille sur moi et sur mes études. Je remercie également ma belle mère Lamia, mes charmantes s÷urs Ines, Douha et Eya ainsi que ma belle famille pour tout leur soutien et amour. Anis, mon cher mari, je te remercie de tout mon c÷ur d'être mon ange gardien. Tu es toujours là, à mes côtes, pour me soutenir et pour m'encourager à avancer dans ce que je fais. Merci pour ta patience et ton amour. Je clôture cette section par un spécial remerciement à mon petit ange Yasmine que j'ai eu la chance d'avoir pendant cette thèse, d'être toujours ma source de bon- heur et d'amour. Je te souhaite ma chère lle plein de bonheur et de réussite dans toute ta vie. iii Cette thèse a été nancée par la région Provence Alpes Côte d'Azur (PACA) et l'entreprise Semantic Grouping Company (SGC) Table des matières 1 Introduction générale 1 2 Processus de classi cation des messages courts : État de l'art 5 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Caractéristiques des messages courts . . . . . . . . . . . . . . . . . . 7 2.3 Prétraitement des messages courts . . . . . . . . . . . . . . . . . . . 8 2.3.1 Topics Models . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3.2 Enrichissement des messages courts . . . . . . . . . . . . . . . 15 2.3.3 Réduction des messages courts . . . . . . . . . . . . . . . . . 25 2.4 Apprentissage des messages courts . . . . . . . . . . . . . . . . . . . 33 2.4.1 Support Vector Machines . . . . . . . . . . . . . . . . . . . . 33 2.4.2 Entropie Maximum . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.3 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.5 Classi cation des messages courts . . . . . . . . . . . . . . . . . . . . 37 2.6 Validation de la classi cation des messages courts . . . . . . . . . . . 40 2.6.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.6.2 Erreur de classi cation . . . . . . . . . . . . . . . . . . . . . . 40 2.6.3 F1-mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.6.4 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.7 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3 Forêts aléatoires 45 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.3 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4 Random Feature Selection . . . . . . . . . . . . . . . . . . . . . . . . 51 3.5 Force et corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.6 Consistance des forêts aléatoires . . . . . . . . . . . . . . . . . . . . . 53 3.7 Types de forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 55 3.8 Forêts aléatoires et apprentissage dynamique . . . . . . . . . . . . . . 56 3.9 Synthèse . . . . . . . . . . . . . . . . uploads/Geographie/ 2017azur4039.pdf

  • 18
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager