1 Devant le jury composé de : • M. SAIDI Mohamed Nabil (INSEA) • M. El HACHIMI

1 Devant le jury composé de : • M. SAIDI Mohamed Nabil (INSEA) • M. El HACHIMI ALAOUI Ali (INSEA) • Mme. TABITI Khouloud (UM6P) ROYAUME DU MAROC *-*-*-*-* HAUT COMMISSARIAT AU PLAN *-*-*-*-*-*-*-* INSTITUT NATIONAL DE STATISTIQUE ET D’ECONOMIE APPLIQUEE Projet de Fin d’Etudes ***** Automatic video post-production using GAN (Generative Adversarial Network) Préparé par : Mme. HENDOR Ouiam Sous la direction de : M. SAIDI Mohamed Nabil (INSEA) Mme. TABITI Khouloud (UM6P) M. EL ALAMI Rafiq (UM6P) Soutenu publiquement comme exigence partielle en vue de l’obtention du Diplôme d’Ingénieur d’Etat Filière : INFORMATIQUE Option : Ingénierie de données et informatique décisionnelle September 2020 / PFE N° 40 INSEA Résumé 2 Résumé : Cette mémoire a pour objectif de donner un aperçu de stage que j'ai effectué au sein de l’université Mohammed 6 polytechnique dont La thématique du projet repose sur la génération des vidéos à l’aide des GANs, utile à l’évolution et à l’amélioration des services du E-Learning. En effet, de plus en plus aujourd’hui, la technologie est présente partout et que tous les organismes se précipitent à l’intégrer dans leurs services, la raison pour laquelle L’UM6P a lancé ce projet. Ce système a pour objectif de pouvoir travailler dans la plus grande commodité́ avec une rentabilité́ accrue. ce projet est un système de génération des vidéos à partir des textes, est mis en place pour automatiser leur traitement. Ce système implémenté suivant l’architecture de LSTM et GANs a pour but de faciliter de travail de l’équipe DLL qui valide les vidéos cours et les postent sur la plateforme E-learning. Ce rapport de fin d’études entre dans le cadre de la conception et de la réalisation d’un système complet pour générer des vidéos avec GANs. La solution proposée est basée sur les modules suivants : ➢ Text2speech. ➢ Audio2mouth. ➢ Facial texture synthesis. Mots-clés: Pix2Pix, Gan,videos,images,audios,LSTM,Deep learning ,CNN… Table des matières 3 Table des matières Résumé : ............................................................................................................................................... 2 Table des matières ................................................................................................................................ 3 Liste des abréviations : ......................................................................................................................... 7 Table de figures :.................................................................................................................................. 8 Remerciement : .................................................................................................................................. 10 Dédicace : ........................................................................................................................................... 11 Abstract: ............................................................................................................................................. 12 Introduction générale : ....................................................................................................................... 13 Chapitre 1 : Contexte général du projet ............................................................................................. 15 Introduction : .................................................................................................................................. 15 Motivation : .................................................................................................................................... 15 1- Présentation de l’organisme d’accueil : .................................................................................. 16 2- Missions de l'UM6P : .............................................................................................................. 16 3- Partenaires de l'UM6P : .......................................................................................................... 17 4- Chiffres Clés de l'UM6P : ....................................................................................................... 18 5- Digital Learning lab : .............................................................................................................. 18 6- État de l’art : ............................................................................................................................ 19 7- Contexte du projet : ................................................................................................................. 19 6-1- Analyse du besoin : ...................................................................................................... 19 6-2- Problématique du projet : ............................................................................................. 20 6-3- Objectifs du projet :...................................................................................................... 21 7- Études conceptuelles : ............................................................................................................. 22 7-1- Méthode adoptée : ........................................................................................................ 22 7-2- Cycle CRISP : .............................................................................................................. 22 7-3- Gantt Project ................................................................................................................ 25 Conclusion : ................................................................................................................................... 25 Chapitre 2 : Génération des vidéos. ................................................................................................... 27 Introduction : .................................................................................................................................. 27 Motivation : .................................................................................................................................... 27 1- Revue de littérature des systèmes de Génération des vidéos : ................................................ 28 1-1- FakeApp : ..................................................................................................................... 28 1-2- Face App : .................................................................................................................... 28 2- GAN et génération des vidéos : .............................................................................................. 29 Table des matières 4 3- VAE et génération des vidéos : ............................................................................................... 30 3-1- C’est quoi un VAE ou auto-encodeur variationnel ? ................................................... 30 3-2- Génération des vidéos à l’aide du VAE : ..................................................................... 32 4- Comparaison entre les méthodes de génération des vidéos : .................................................. 33 5- Vers un système de génération des vidéos pour une plateforme e-learning ........................... 33 5-1- Revue de littérature : .......................................................................................................... 33 5-2- Utilité du système proposé : ............................................................................................... 34 5-3- Architecture de système : ................................................................................................... 34 Conclusion : ................................................................................................................................... 35 Chapitre 3 : Deep Learning (Apprentissage Profond) : ..................................................................... 36 Introduction : .................................................................................................................................. 36 Motivation : .................................................................................................................................... 36 1- GAN : ...................................................................................................................................... 37 1-1- Définition : ................................................................................................................... 37 1-2- Architecture des GANs : .............................................................................................. 37 1-3- Les cas d'utilisation des GANs .......................................................................................... 38 2- RNN : ...................................................................................................................................... 39 2-1- Définition : ......................................................................................................................... 39 2-2- Architecture : ...................................................................................................................... 39 2-3- Applications des RNN : ...................................................................................................... 40 2-4- Mémoire à long terme à court terme LSTM : .................................................................... 40 3- Réseau de neurones convolutionnel (CNN) : .......................................................................... 42 3-1- Définition : ................................................................................................................... 42 3-2- Architecture :................................................................................................................ 42 4- Fonction d'activation : ............................................................................................................. 43 4-1- Fonction d'activation linéaire : ..................................................................................... 43 4-2- Fonction d'activation non linéaire : .............................................................................. 44 4-3- Sigmoïde : .................................................................................................................... 44 4-4- Tanh : ........................................................................................................................... 45 4-5- Relu : ............................................................................................................................ 46 4-6- Softmax : ...................................................................................................................... 47 5- Highway Networks : ............................................................................................................... 48 6- L'algorithme L-BFGS-B : ....................................................................................................... 49 7- Couche convolutionnelle1D :.................................................................................................. 49 Conclusion : ................................................................................................................................... 49 Chapitre 4 : développement du modèle.............................................................................................. 50 Introduction : ................................................................................................................................. 50 Table des matières 5 Motivation : .................................................................................................................................... 50 1- Outils utilisés : ........................................................................................................................ 50 1- Description de la dataset : ....................................................................................................... 54 2- Data Preprocessing :................................................................................................................ 55 2-1- Extraction des images à partir des vidéos : ........................................................................ 55 2-2- Extraction de l’audio : ........................................................................................................ 56 2-3- extraction des points clés de la bouche : ............................................................................ 58 2-4- extraction des points clés des audios : ................................................................................ 60 2-5- Analyse en composants principales (ACP) : ...................................................................... 61 2- Text2speech : ............................................................................................................................. 61 2-1- La génération de voix à l’aide de pyttxs3 : ........................................................................ 62 2-3- Génération à l’aide d’un réseau de neurone convolutif profond : ...................................... 64 2-3- Adaptation de voix : ........................................................................................................... 66 3- Audio-to-mouth :..................................................................................................................... 69 3-1- Méthodologie : ................................................................................................................... 69 3-2-Architecture : ....................................................................................................................... 71 5-1- Fonction de perte :........................................................................................................ 71 5-2- Résultat : ...................................................................................................................... 72 6- FACIAL TEXTURE SYNTHESIS : ...................................................................................... 73 4-1- Pix2Pix model : .................................................................................................................. 73 4-2- UNET : ............................................................................................................................... 76 4-3- Architecture : ...................................................................................................................... 77 4-4- Fonction de perte : .............................................................................................................. 77 4-5- Génération des images : ..................................................................................................... 78 Conclusion : ................................................................................................................................... 80 Chapitre 5 : Résultats & Discussion ................................................................................................. 81 Introduction .................................................................................................................................... 81 Motivation : .................................................................................................................................... 81 1- Qualité des images : ................................................................................................................ 82 1-1- Entrainement des images : ........................................................................................... 82 1-2- Similarité : .................................................................................................................... 84 1-3- Synchronisation vidéo-audio : ..................................................................................... 86 2- Contraintes : ............................................................................................................................ 86 3- Limites de projet : ................................................................................................................... 87 4- Perspectives :........................................................................................................................... 88 3-1- Audio to mouth :................................................................................................................. 88 3-2- FACIAL TEXTURE SYNTHESIS .................................................................................... 90 Table des matières 6 5- Apports : .................................................................................................................................. 91 6- Synthèse : ................................................................................................................................ 92 Conclusion : ....................................................................................................................................... 93 Références .......................................................................................................................................... 94 Liste des abréviations 7 Liste des abréviations : LSTM : La mémoire à court terme. GAN : Réseau antagoniste génératif. VAE : Auto-encodeur variationnel. UM6P : Université Mohamed 6 Polytechnique. DLL : Digital Learning Lab. DFR : Digital For Research. RNN : Réseau de neurones récurrents. CNN : Réseau de neurones convolutifs. TTS : Text To Speech. MFCC : Coefficients Cepstraux à Fréquence Mel. ACP/PCA : Analyse En Composantes Principales. DCTTS: Deep Convolutional TTS (Text to Speech). SSRN: Spectrogramme Super-resolution Network. ISTFT : Transformée de Fourier à court terme inverse. TCN : Réseau convolutif temporel. GPU : Pprocesseur graphique. HPC : High-performance computing. CGAN : Réseau antagoniste génératif conditionnel. Table de figures 8 Table de figures : Figure 1 : Méthode scrum. Figure 2 : Cycle CRISP-DM. Figure 3 : Cycle CRISP-DM. Figure 4 : Diagramme de Gantt Figure 5 : Composants du GAN. Figure 6 : Architecture VAE. Figure 7 : Résultat de génération à travers VAE. Figure 8 : Architecture de projet. Figure 9 : Architecture des GANs Figure 10 : Architecture RNN. Figure 11 : Applications RNN. Figure 12 : Schéma d’un réseau LSTM. Figure 13 : Architecture d’un CNN. Figure 14 : Couches du réseau CNN. Figure 15 : Fonction linéaire. Figure 16 : La fonction non linéaire. Figure 17 : Fonction sigmoïde Figure 18 : Fonction Tanh. Figure 19 : La fonction softmax. Figure 20 : Ligne de commande pour extraction des images Figure 21 : Exemple des images extraites. Figure 22 : Ligne de commande pour l’extraction des audios Figure 23 : Waveforme d’un audio extrait. Figure 24 : Spectrogramme de l’audio extrait Figure 25 : L’index de 68 coordonnées de Dlib. Figure 26 : Coordonnées de la bouche d’une image extraite. Figure 27 : MFCCS des audios extraits. Figure 28 : Waveforme de l’audio généré. Figure 29 : Le spectrogramme d’audio généré. Table de figures 9 Figure 30 : Architecture Text2Mel. Figure 31 : Graphe de la fonction de perte du module text2speech. Figure 32 : graphe de fonction de perte. Figure 33 : Schéma explicative du fonctionnement du LSTM dans notre cas. Figure 34 : Architecture adoptée pour la partie audio to mouth. Figure 35 : Fonction de perte du LSTM. Figure 36 : Résultat de la fonction de perte à la fin de l’entrainement. Figure 37 : Résultat de LSTM. Figure 38 : Transformation d’un dessin en image réelle. Figure 39 : Architecture du générateur. Figure 40 : Liaison entre les couches UNET. Figure 41 : Entrainement de pix2pix. Figure 42 : Exemple des images d’entrée pour pix2pix. Figure 43 : Résultat générée à l’aide de pix2pixHD. Figure 44 : Images générées après un entrainement resp de 3 epochs, 20 epochs et 70 epochs Figure 45 : La fonction de perte du générateur. uploads/Ingenierie_Lourd/ pfe-hendor-ouiam.pdf

  • 11
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager