Rapport du stage d’Eté Présenté à L’institut supérieur d’informatique et de mul
Rapport du stage d’Eté Présenté à L’institut supérieur d’informatique et de multimédia de Sfax Effectué à Maison du Nabeul Par Belaazi Nada Licence Fondamentale Spécialité : Informatique et Multimédia Sommaire Chapitre I : Cadre générale du projet 4 Introduction 5 Présentation de l’entreprise 5 Présentation du sujet 6 1. Contexte 6 2. L’objectif 6 Chapitre II : Etat de l’art 7 I. Environnement de travail, les outils utilisés : 8 1. R Langage 8 2. R Studio 8 II. Notion de base : 8 1. La science des données « Data-science» 8 2. L’exploration des données «Data-Mining» 9 3. L’apprentissage automatique «Machine Learning» 9 4. L’apprentissage en profondeur «Deep Learning» 10 5. IA 10 Chapitre III : Modélisation 11 I. Analyse 12 1 .Dataset 12 2. Variable dépendante 14 3. Variable indépendante 14 4. Algorithme K-NN 14 II. Description des taches 14 1. Encoding the target feature as factor 14 2. Spliting the dataset into the Training set and Test set 15 3. Feature Scaling: 16 4. Visualisation test set and training set avec l’algorithme k-NN: 17 III Conclusion : 19 2 Liste des figures : Figure 1 : Data-science 9 Figure 2 : Data-Mining 9 Figure 3 : Machine Learning 10 Figure 4 : Code dataset 13 Figure 5 : Dataset 14 Figure 6 : Training set 15 Figure 7: Test set 16 Figure 8 : Feature Scaling training set 17 Figure 9 : Feature test set 17 Figure 10 : Visualisation training set18 Figure 11 : Visualisation test set 18 Figure 12 : visualisation training set (decision tree) 19 Figure 13 : Visualisation test set(decision tree) 19 3 Remerciement Je tiens à remercier toutes les personnes qui ont contribué au succès de mon stage et qui m'ont aidé lors de la rédaction de ce rapport. Je tiens à remercier vivement mon maitre de stage, Mr Houcem Rezgi pour son accueil, le temps passé ensemble et le partage de son expertise au quotidien. Grâce aussi à sa confiance j'ai pu m'accomplir totalement dans mes missions. Il fut d'une aide précieuse dans les moments les plus délicats. Introduction générale : L’apprentissage automatique est un sous-domaine de l’intelligence artificielle (IA). En générale, On a l’impression de comprendre automatiquement la structure et l’intégration dans les modèles qui peuvent être compris et utilisé par tout le monde. Bien que l’apprentissage soit automatiquement soit un domaine de l’informatique, il diffère des approches informatiques traditionnelles. En fait, les algorithmes sont des ensembles d’instruction explicite utilisée par les ordinateurs pour calculer ou résoudre les problèmes. Les algorithmes d’apprentissage automatique ont été mémorisés et analysés pour produire des valeurs qui se situent dans une plage spécifique. Ce rapport est composé de trois chapitres. Dans le premier chapitre nous présentons le cadre générale du projet. Le second chapitre comporte une description des différents outils qui peuvent être utilisé pour résoudre le problème de classification et quelque Notion de base ... Et enfin, dans le dernier chapitre, nous présentons les étapes de nos démarches qui résoudre le problème. 4 Chapitre I : Cadre générale du projet 5 Introduction : Ce chapitre introductif est consacré à la présentation de l’organisme d’accueil ainsi que le cadre général du projet. Nous exposons, dans un premier temps, la société Maison du web. Nous présentons par la suite les objectifs de notre travail. Présentation de l’entreprise : Maison de web est une société créée en mars 2012, la société Maison du Web est une agence de communication tunisienne sise à Nabeul. Elle est spécialisée dans le développement informatique orienté Web. La société est composée principalement de trois services : Web pour la création et l’audit des sites Web, Marketing digital pour le référencement naturel, le Google AdWord, Facebook et l’Emailing. Ingénierie des données Présentation de sujet Contexte : Ce projet consiste à classifier les acheteurs d’un produit selon deux axes (salaire estimé et âge d’acheteur) en vue de résulter le public cible L’objectif : Mise en pratique de l'une des méthodes d’apprentissage par Machine Learning pour un problème de classification. 6 Chapitre II : État de l'art 7 I. Environnement de travail, les outils utilisés : 1. R langage : R est un langage de programmation et un logiciel libre destiné aux statistiques et à la science des données soutenu par la R Foundation for Statistical Computing. R fait partie de la liste des paquets GNU et est écrit en C, Fortran et R. Le langage R est largement utilisé par les statisticiens, les data miners, data scientists pour le développement de logiciels statistiques et l’analyse des données. 2. R studio : RStudio est un environnement de développement gratuit, libre et multiplateforme pour R, un langage de programmation utilisé pour le traitement de données et l’analyse statistique. Il est disponible sous la licence libre AGPLv3, ou bien sous une licence commerciale, soumise à un abonnement annuel. RStudio est disponible en deux versions : RStudio Desktop, pour une exécution locale du logiciel comme tout autre application, et RStudio Server qui, lancé sur un serveur Linux, permet d'accéder à RStudio par un navigateur web. La science des données est un "concept pour unifier les statistiques, l'analyse des données, l'apprentissage automatique et les méthodes associées" afin de "comprendre et analyser les phénomènes réels" avec des données. Il utilise des techniques et des théories issues de nombreux domaines dans les domaines des mathématiques, de la statistique, de la science de l'information et de l'informatique. II. Notion de base 1. La science des données « Data-science » : 8 La science des données « Data-science » est un concept pour unifier les statistiques, l'analyse des données, l'apprentissage automatique et les méthodes associées afin de comprendre et analyser les phénomènes réels avec des données. Il utilise des techniques et des théories issues de nombreux domaines dans les domaines des mathématiques, de la statistique, de la science de l'information et de l'informatique. Figure 1: Data-science 2. L’exploration des données « Data-Mining » : L'exploration des données « Data-Mining » est le processus de découverte de modèles dans de grands ensembles de données impliquant des méthodes situées à l'intersection de l'apprentissage automatique, des statistiques et des systèmes de base de données. Figure 2: Data-Mining 3. L’apprentissage automatique « Machine Learning » : L’apprentissage automatique « machine Learning en anglais » regroupe l’ensemble des méthodes et algorithmes basées sur l’accumulation de données et leur analyse statistique, afin d’en inférer de nouvelles et de guider les décisions prises par le logiciel. 9 Figure 3 : Machine Learning Le principe : Il s’agit d’améliorer la performance P d’une machine à réaliser la tâche T en utilisant un ensemble d’exercices E. Exemple: Jeu de dames E = L’expérience de jouer à beaucoup de jeux de dames. T = La tâche de jeu de dames. P = La probabilité que le programme gagnera le jeu suivant. 4. l’apprentissage en profondeur « Deep Learning » : L’apprentissage en profondeur « Deep Learning » fait partie d’une famille de méthodes d’apprentissage automatique fondées sur l’apprentissage de représentations de données, par opposition à des algorithmes spécifiques à une tâche. L'apprentissage peut être supervisé, semi-supervisé ou non supervisé 5. L’intelligence artificielle : L'intelligence artificielle (IA) est l'ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence »1. Elle correspond donc à un ensemble de concepts et de technologies plus qu'à une discipline autonome constituée. Ainsi, l’intelligence artificielle est une chose qui fait un lien entre des données d’entrée et de sortie. (Je lui donne du rouge et l’intelligence artificielle me rend du bleu par exemple.) 10 Chapitre III : Modélisation 11 I. Analyse : 1. Dataset : Data est présent dans le fichier Data.csv dans le dossier ou le répertoire de travail en cours (utilisez la commande setwd ("Emplacement actuel du Data.csv") pour définir le répertoire de travail sur le répertoire en cours.) *Import Dataset : 12 Figure 4 : code dataset 13 Figure 5 : Dataset 2. Variable dépendante : *Salaire : variable continue qui exprime le salaire d'un employé. *Age : variable continue qui exprime l’âge d’un employé. *Purchased : variable continue qui exprime acheté de client. 3. Variable indépendante : *Salaire : variable continue qui exprime le salaire d'un employé. *Age : variable continue qui exprime l’âge d’un employé. *Purchased: variable continue qui exprime acheté de client. 4. algorithme k-NN : La méthode d’apprentissage utiliser pour résoudre le problème de classification est : méthode des k plus proches voisins « K-NN » est une méthode d’apprentissage supervisé. Alors comment l'utiliser ?? 1. Choisissez le nombre k de voisins 2. Prendre le k voisin le plus proche du nouveau point de données, en fonction de la distance euclidienne 3. Parmi ces k voisins, calculez le nombre de points de données dans chaque catégorie 4. Assignez le nouveau point de données à la catégorie où vous avez compté le plus de voisins II. Description des taches : 1. Encoding the target feature as factor 14 Les données catégoriques sont des données non numériques qui appartiennent à un ensemble spécifique uploads/Science et Technologie/ pfa-1.pdf
Documents similaires










-
49
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 03, 2022
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 0.5412MB