Union-Discipline-Travail Republique de Côte d'Ivoire Ministère de l'Enseignemen

Union-Discipline-Travail Republique de Côte d'Ivoire Ministère de l'Enseignement Supérieur et de la Recherche Scientifique Ministère de l'Economie Numérique et de la Poste MEMOIRE DE FIN DE CYCLE pour l'obtention du Master en Data Science - Big Data THEME Traduction automatisée des langues Africaines Cas du lingala presenté par : TANO Assandé Jacob Encadreur pédagogique BROU Konan Marcellin Enseignant chercheur à l'INP-HB Maitre de stage Fabrice ZAPFACK Co-fondateur et directeur technique à data354 Année académique 2019-2020 International Data Science Institute ------------------- ------------------- Dr. BROU Konan Marcellin DEDICACES À ma famille, amis et connaissances qui m’ont apporté le soutien moral et financier afin que je puisse réussir cette formation aux métiers de la data science. Master Data Science - Big Data I TANO Assandé Jacob REMERCIEMENTS Nous remercions tout d'abord l’Eternel Dieu pour le souffle de vie et la force nécessaire qu’il nous a accordé pour l’effectivité de ce travail. Nos remerciements vont aussi à l'endroit d’ Orange Côte d'Ivoire, la fondation X Polytechnique, l'école X Polytechnique, l'INP-HB de Yamoussoukro et l'ENSEA d'Abidjan qui ont tout mis en œuvre pour la réussite de cette formation. Ensuite au Directeur Technique (CTO) de data354, M. Fabrice ZAPFACK, pour l’accueil et l’assistance qu’il nous a apporté durant ces six mois de stage. Également nous remercions les membres de l’équipe de data354, pour leur sympathie, disponibilité, conseils et bonne humeur, qui ont contribué à faciliter notre intégration. Nous témoignons aussi notre profonde gratitude à l'administration de l'INP-HB, en particulier à Monsieur KOFFI N'Guéssan, actuel Directeur de l'INP-HB, à Monsieur Tanoh Tanoh Lambert, Directeur de l'IDSI, et à ses collaborateurs. Nos remerciements les plus distingués vont également à l'endroit du Professeur BROU Konan Marcellin pour l’encadrement durant toute la période de stage. Mes sincères remerciements à mon oncle GBOZO Yao, à ma tante MEA Odette, à mon frère cadet TANO Kouakou Aaron Junior, à mes amis TANOH Bredoux Fulgence, DJE Marie-Christelle, KOUAKOU Fulbert et ADAYE Kissi Patrice qui m’ont accompagnés moralement et financièrement tout au long de cette formation, sans oublier tout ceux ou celles qui ont pris de leur temps pour lire et corriger ce mémoire. Master Data Science - Big Data II TANO Assandé Jacob SOMMAIRE DEDICACES.................................................................................................................................................................................I REMERCIEMENTS...................................................................................................................................................................II SOMMAIRE...............................................................................................................................................................................III LISTE DES TABLEAUX...........................................................................................................................................................IV LISTE DES FIGURES..................................................................................................................................................................V LISTE DES ABREVIATIONS..................................................................................................................................................VI GLOSSAIRE..............................................................................................................................................................................VII AVANT-PROPOS...................................................................................................................................................................VIII RESUME.....................................................................................................................................................................................IX INTRODUCTION GENERALE..............................................................................................................................................1 PARTIE I : ENVIRONNEMENT DE LA MISSION..............................................................................................................2 I- PRÉSENTATION DE LA STRUCTURE D'ACCUEIL............................................................................................3 II- PRÉSENTATION DU CAHIER DES CHARGES.....................................................................................................4 III- PLANNING PREVISIONNEL.....................................................................................................................................6 IV- ANALYSE DE L’EXISTANT.........................................................................................................................................6 PARTIE II : ETUDE DES APPROCHES EXISTANTES DE TRADUCTION AUTOMATIQUE ET CHOIX D’UNE APPROCHE...................................................................................................................................................................7 I- PRESENTATION DES METHODES DE TRADUCTION AUTOMATIQUE....................................................8 II- CHOIX D’UNE APPROCHE.....................................................................................................................................11 PARTIE III : DESCRIPTION DE LA TRADUCTION AUTOMATIQUE NEURONALE……...................................12 I- LA TRADUCTION AUTOMATIQUE NEURONALE.........................................................................................13 II- LES RÉSEAUX DE NEURONES RÉCURRENTS...................................................................................................17 III- MODÈLES NEURONAUX DE TRADUCTION AUTOMATIQUE...................................................................24 IV- EVALUATION D’UN MODÈLE DE TRADUCTION AUTOMATIQUE……...................................................28 PARTIE IV : IMPLEMENTATION DU MODELE DE TRADUCTION AUTOMATIQUE…………...........................33 I- PRÉSENTATION DU PROCESSUS GLOBALE DE TRAITEMENT..................................................................34 II- COLLECTE ET PRÉPARATION DES DONNÉES.................................................................................................36 III- CONSTRUCTION DU MODÈLE DE TRADUCTION AUTOMATIQUE……….............................................40 IV- PRESENTATION DES RESULTATS........................................................................................................................41 CONCLUSION GENERALE..................................................................................................................................................44 BIBLIOGRAPHIE.......................................................................................................................................................................X WEBGRAPHIE..........................................................................................................................................................................XI ANNEXES.................................................................................................................................................................................XII TABLE DES MATIÈRES.........................................................................................................................................................XV Master Data Science - Big Data III TANO Assandé Jacob LISTE DES TABLEAUX Tableau 1 : Planning prévisionnel d’exécution du projet..........................................................................................6 Tableau 2 : Calcul de la précision modifiée (P1) des unigrams...............................................................................30 Tableau 3 : Calcul de la précision modifiée (P2) des bigrams..................................................................................30 Tableau 4 : Calcul de la précision modifiée (P3) des 3-grams..................................................................................31 Tableau 5 : Calcul de la précision modifiée (P4) des 4-grams..................................................................................31 Tableau 6 : Caractéristiques du jeu de données.......................................................................................................36 Tableau 7 : Exemple de mise en minuscule des mots du jeu de données................................................................37 Tableau 8 : Exemple de suppression de bruts du jeu de données............................................................................37 Tableau 9 : Exemple d'harmonisation des écrits du jeu de données........................................................................38 Tableau 10 : Modèles de traduction automatique...................................................................................................40 Tableau 11 : Quelques hyperparamètres des modèles construits............................................................................40 Tableau 12 : Présentation des résultats des différents modèles de traduction automatique..................................41 Tableau 13 : Extrait de traduction machine et humaine…………………………………………………................................43 Master Data Science - Big Data IV TANO Assandé Jacob ​LISTE DES FIGURES Figure 1 : Statistiques des univers linguistiques........................................................................................................5 Figure 2 : Traduction automatique à base de règles..................................................................................................8 Figure 3 : Traduction automatique statistique.........................................................................................................9 Figure 4 : Traduction automatique neuronale........................................................................................................10 Figure 5 : Mise en correspondance neurone biologique / neurone artificiel.........................................................14 Figure 6 : Structure d'un neurone artificiel j...........................................................................................................14 Figure 7 : Génération de texte caractère par caractère............................................................................................19 Figure 8 : Traitement d’une séquence de taille T un réseau de neurone récurrent ..............................................19 Figure 9 : Prédiction de la probabilité du caractère suivant à partir d’une séquence initiale................................20 Figure 10 : Une couche RNN, prenant en entrée des séquences de 10 caractères................................................21 Figure 11 : Représentation simplifiée d’une cellule LSTM...................................................................................22 Figure 12 : Représentation simplifiée d’une cellule GRU.....................................................................................23 Figure 13 : Représentation fermée d’ un modèle séquence-à-séquence................................................................24 Figure 14 : Représentation ouverte d’ un modèle séquence-à-séquence...............................................................25 Figure 15 : Représentation détaillée d’un seq2seq pour une traduction anglais vers lingala................................25 Figure 16 : Représentation simplifiée d’un ‘Transformer’.....................................................................................27 Figure 17 : Processus global de la mise en place de l’outil de traduction...............................................................34 Figure 18 : Exemple de vectorisation d’une entrée.................................................................................................39 Figure 19 : Répartition des données……………...………….........................................................................................39 Figure 20 : Interface web de traduction….....…………..............................................................................................42 Figure 21 : Extrait du script de traduction...………….............................................................................................XII Figure 22 : Extrait du corpus parallèle.....………….................................................................................................XIII Figure 23 : Extrait du script de l’encodeur et du décodeur..................................................................................XIV Master Data Science - Big Data V TANO Assandé Jacob ​LISTE DES ABREVIATIONS BLEU : ​BiLingual Evaluation Understudy CTO : ​Chief Technical Officer ENSEA : ​École Nationale Supérieure de Statistique et d’Economie Appliquée FFN : ​Feed Forward network GRU :​ Gated recurrent unit IA : ​Intelligence Artificielle IDSI :​ International Data Science Institute INP-HB : ​Institut National Polytechnique Félix Houphouët Boigny LSTM : ​Long Short-Term Memory NMT :​ Neural Machine Translation NLP : ​Natural Language Processing OOV : ​Out Of Vocabulary RBMT : ​Rules Based Machine Translation RPA : ​Robotics Process Automation (Automatisation des Processus Robotiques) RNN : ​Recurrent Neural Network SMS :​ Short Message Service SMT : ​Statistical Machine Translation TA : ​Traduction Automatique TAL : ​Traitement Automatique du Langage TALN​ : Traitement Automatique du Langage Naturel TAN : ​Traduction Automatique Neuronale TAS :​ Traduction Automatique Statistique Master Data Science - Big Data VI TANO Assandé Jacob ​ ​GLOSSAIRE ● Anglais : ​langue indo-européenne germanique originaire d’Angleterre et parlée comme langue officielle dans plusieurs pays du monde. ● Arabe : C'est la ​langue officielle de ​plus de vingt pays et de plusieurs organismes internationaux, dont l'une des six langues officielles de l’​Organisation des Nations unies​. ● Haoussa : ​Haoussa, hausa ou hawsa, est une langue africaine de la famille des langues afro-asiatiques parlée en Afrique de l’Ouest, principalement au Niger et au Nigeria, mais aussi 1 au Bénin. ● Igbo : ​L’igbo, ou ibo est une langue parlée au Nigéria par environ 20 à 35 millions de personnes, les Igbos, en particulier dans le sud-est du Nigéria. ● Intelligence artificielle : elle désigne l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence humaine. ● Langue Africaine : u​ne langue est ​tout d’abord ​un instrument permettant la communication entre individus. L’on doit donc entendre par langue africaine, une langue parlée sur le continent africain. ● Lingala : ​c’est une langue de la famille des ​langues bantoues , parlée en République 2 democratique du Congo (communément appelé Congo-Kinshasa) et en République du Congo (appelé communément Congo-Brazzaville). ● Natural Language Processing (NLP) : ​encore appelée en français traitement automatique du langage naturel (abr. TALN), ou traitement automatique des ​langues (abr. TAL) c’est un domaine qui vise à créer des outils de traitement de la langue naturelle par des algorithmes d’Intelligence artificielle. ● Swahili : Le Swahili ou Kiswahili est une langue d’origine africaine, parlé dans dix pays à savoir le Malawi, le Rwanda, la Somalie, le Mozambique, la RDC, le Kenya, l’Ouganda, le Burundi, la Tanzanie puis aux​ ​Comores. ● Traduction automatique : consiste à traduire un texte (ou d'une conversation audio, en direct ou en différé) d’une langue source vers une langue cible en utilisant un ou plusieurs programmes informatiques, sans qu'un traducteur humain n'ait à intervenir. ● Wolof : ​langue sénégambienne principalement parlée au Sénégal et en Mauritanie. 3 ● Word Embedding : ​Le word embedding est une technique de vectorisation de mots où les mots se rapprochant sémantiquement sont représentés par des vecteurs plus proches. ● Yoruba : est une langue d’Afrique de l’ouest principalement parlée au Nigeria, Bénin et au Togo. ● Zulu :​ Le zulu est une langue de la famille des langues bantoues, parlée en Afrique australe. 1 ​Afro-asiatiques : ​une famille de langues parlées principalement en Afrique du Nord, dans la Corne de l'Afrique, au Moyen-Orient, dans le Sahara et dans une partie du Sahel. 2 ​Langues bantoues : La famille des langues bantoues est un ensemble de langues africaines qui regroupe environ 400 langues parlées dans une vingtaine de pays de la moitié sud. 3 ​Langues sénégambiennes : ​Les langues sénégambiennes sont des langues africaines rattachées à la branche nord des langues atlantiques. TANO Assandé Jacob AVANT-PROPOS uploads/Science et Technologie/ memoiretano-assande-jacob.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager