1 PLAN DE TRAVAIL INTRODUCTION I- GENERALITE SUR LE MACHINE LEARNING II- LANGUA

1 PLAN DE TRAVAIL INTRODUCTION I- GENERALITE SUR LE MACHINE LEARNING II- LANGUAGE SUPERVISE 1- TYPE D’ALGORITHME D’APPRENTISSAGE SUPERVISE a- REGRESSION LINEAIRE b- REGRESSION LOGISTIQUE c- ARBRES DE CLASSIFICATION ET DE REGRESSION d- K-NN e- NAIVE BAYES CLASSIFIER 2- APPLICATION CONCLUSION 2 INTRODUCTION A la base, un ordinateur ne sait faire qu’une seule chose, des calculs, ce qui est bien diffèrent de ce que nous savons faire : résoudre des problèmes, faire du vélo, reconnaitre les objets que nous voyons autour de nous. Ainsi l’intelligence artificielle représente l’ensemble des techniques qui cherchent à élaborer des systèmes capables de simuler ce que les êtres humains font. Parmi ces techniques on retrouve le machine Learning qui fonctionne tellement bien qu’il envahi notre quotidien. Il consiste à écrire un programme qui apprend à faire une tache T lorsque sa performance P s’améliore avec une expérience. Pour se faire, on utilise couramment des algorithmes de Supervised Learning, Unsupervised Learning Reinforcemenr Learning. 3 I- GENERALITE SUR MACHINE LEARNING QU’EST-CE QUE LE MACHINE LEARNING? Qu’est-ce qu’apprendre, comment apprend-on, et que cela signifie-t-il pour une machine ? La question de l’apprentissage fascine les spécialistes de l’informatique et des mathématiques tout autant que neurologues, pédagogues, philosophes ou artistes. Une définition qui s’applique à un programme informatique comme à un robot, un animal de compagnie ou un être humain est celle proposée par Fabien Benureau (2015) : « L’apprentissage est une modification d’un comportement sur la base d’une expérience ». Dans le cas d’un programme informatique, qui est celui qui nous intéresse dans cet ouvrage, on parle d’apprentissage automatique, ou machine Learning, quand ce programme a la capacité d’apprendre sans être programmé. Cette définition est celle donnée par Arthur Samuel (1959). On peut ainsi opposer un programme classique, qui utilise une procédure et les données qu’il reçoit en entrée pour produire en sortie des réponses, à un programme d’apprentissage automatique, qui utilise les données et les réponses afin de produire la procédure qui permet d’obtenir les secondes à partir des premières. 1.1.1 Pourquoi utiliser le machine Learning ? Le machine Learning peut servir à résoudre des problèmes • que l’on ne sait pas résoudre (comme dans l’exemple de la prédiction d’achats ci-dessus); • que l’on sait résoudre, mais dont on ne sait formaliser en termes algorithmiques comment nous les résolvons (c’est le cas par exemple de la reconnaissance d’images ou de la compréhension du langage naturel) ; • que l’on sait résoudre, mais avec des procédures beaucoup trop gourmandes en ?ressources informatiques (c’est le cas par exemple de la prédiction d’interactions entre molécules de grande taille, pour lesquelles les simulations sont très lourdes). Le machine Learning est donc utilisé quand les données sont abondantes (relativement), mais les connaissances peu accessibles ou peu développées. Ainsi, le machine Learning peut aussi aider les humains à apprendre : les modèles créés par des algorithmes d’apprentissage peuvent révéler l’importance relative de certaines informations ou la façon dont elles interagissent entre elles pour résoudre un problème particulier. Dans l’exemple de la prédiction d’achats, comprendre le modèle peut nous 4 permettre d’analyser quelles caractéristiques des achats passés permettent de prédire ceux à venir. Cet aspect du machine Learning est très utilisé dans la recherche scientifique : quels gènes sont impliqués dans le développement d’un certain type de tumeur, et comment ? Quelles régions d’une image cérébrale permettent de prédire un comportement ? Quelles caractéristiques d’une molécule en font un bon médicament pour une indication particulière ? Quels aspects d’une image de télescope permettent d’y identifier un objet astronomique particulier ? Ingrédients du machine Learning Le machine Learning repose sur deux piliers fondamentaux : • d’une part, les données, qui sont les exemples à partir duquel l’algorithme va apprendre ; • d’autre part, l’algorithme d’apprentissage, qui est la procédure que l’on fait tourner sur ces données pour produire un modèle. On appelle entraînement le fait de faire tourner un algorithme d’apprentissage sur un jeu de données. Ces deux piliers sont aussi importants l’un que l’autre. D’une part, aucun algorithme d’apprentissage ne pourra créer un bon modèle à partir de données qui ne sont pas pertinentes – c’est le concept garbage in, garbage out qui stipule qu’un algorithme d’apprentissage auquel on fournit des données de mauvaise qualité ne pourra rien en faire d’autre que des prédictions de mauvaise qualité. D’autre part, un modèle appris avec un algorithme inadapté sur des données pertinentes ne pourra pas être de bonne qualité. II-LANGUAGE SUPERVISE A priori, sans avoir de connaissance sur le sujet, machine Learning peut paraitre un sujet insurmontable. Il faut savoir qu’il y a deux principales branches d’algos : supervisés et non supervisés. Nous allons nous intéresser ici aux algos supervisé. L’apprentissage supervisé est une tâche d’apprentissage automatique consistant à apprendre une fonction de prédiction à partir d’exemples annotés, au contraire de l’apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d’une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d’une variable qualitative sont des problèmes de classification. 5 La machine Learning ou apprentissage automatique, est un élément principal quand il s’agit d’intelligence artificielle. L’apprentissage automatique constitue une grande avancée des lors que vous voulez créer une intelligence artificielle ou tentez simplement d’obtenir un aperçu de toutes les données que vous avez collectées. 1- TYPES D’ALGORITHME D’APRENTISSAGE SUPERVISE a – REGRESSION LINEAIRE Dans cet article nous allons exposer 5 principaux algorithmes d’apprentissage supervisé. La régression linéaire est l’un des algorithmes d’apprentissage supervisé les plus populaires. Il est aussi simple et parmi les mieux compris en statistique et en apprentissage automatique. La régression linéaire est un type d’analyse prédictive de base. Le concept général de la régression est d’étudier deux questions. -un ensemble de variables prédictives permet-il de prédire une variable de résultat ? -quelles sont les variables les plus significatives et qui ont le plus d’impact sur la variable de résultat ? On utilise ces estimations de régression pour expliquer les relations entre variable dépendante et une ou plusieurs variables indépendantes. La forme la plus simple de l’équation de régression avec une variable dépendante est définie par la formule y=c+b*x avec y=variable dépendante estimé.c=constante=coefficient de régression x=variable indépendante. On parle ici de régression linéaire simple. Pour la régression linéaire multiple on écrira y=c+b*x1+…. +n*xn avec x1 jusqu’à xn les variables indépendantes et b jusqu’à n les coefficients de régression respectifs des variables. 6 FIGURE 1 : REGRESSION LINEAIRE b - REGRESSION LOGISTIQUE Les prédictions de régression linéaire sont des valeurs continues (températures en degrés), les prévisions de régression logistique sont des valeurs discrètes, c’est-à-dire un ensemble fini de valeurs (vrai ou faux par exemple). La régression logistique convient mieux à la classification binaire. Par exemple, on peut considérer un ensemble de données ou y=0 ou 1 ou 1 représente la classe par défaut. Pour illustrer on peut imaginer que l’on veuille prédire s’il pleuvra ou non. On aura 1 pour s’il pleut et 0 le cas contraire. Au contraire de la régression linéaire, la régression logistique, propose le résultat sous forme de probabilités de classe par défaut. Le résultat appartient dont à l’intervalle 0 :1] c’est-à-dire qu’l est compris entre 0 et 1. Vu qu’il s’agit d’une probabilité. La valeur y de sortie est générée 7 par la transformation de la valeur x, à l’aide de la fonction logistique h(x)=1/(1+e^-x). Un seuil est ensuite appliqué pour forcer cette probabilité dans une classification binaire. FIGURE 2 : REGRESSION LOGISTIQUE c-ARBRES DE CLASSIFICATION ET DE REGRESSION Les arbres de classification et de régression, aussi connus sous le nom de CART (classification And Régression Tree) sont une forme simple d’arbres de décision. Cette structure n’utilise que des algorithmes et des structures de données. Ces arbres n’ont que deux composantes : -les nœuds de branchement, qui représentent une seule variable d’entrée et offrent un seul point de partage sur la variable. -les nœuds feuilles, qui représentent les deux variables de sortie. A l’exécution de l’algorithme par la machine, la prédiction est faite en suivant les divisions du nœud de branche jusqu’à atteindre un nœud. Les arbres de classification et de régression sont faciles à apprendre et à utiliser, et précis pour toute une gamme de problèmes. Celles-ci sont particulièrement rapides à mettre en œuvre car les données ne nécessitent aucune préparation particulière. 8 FIGURE 3 : ARBRE DE CLASSIFICATION ET DE REGRESSION d-K-NN L’algorithme K-NN qui signifie k-voisins les plus proches utilise l’intégralité du data set en tant qu’entrainement, au lieu de diviser se dernier en un training et testing set. Quand un résultat est requis pour une nouvelle instance de données, l’algorithme KNN parcourt l’intégralité du data set pour rechercher les k-instances les plus proches de la nouvelle instance ou le nombre k d’instances les plus similaires au nouvel enregistrement, puis envoie la moyenne des résultats. La classe à laquelle appartient cette instance si c’est un problème de classification. L’utilisateur spécifie lui-même la valeur de k. La similarité entre les instances est calculée à l’aide de mesures telles que la similarité entre les instances uploads/Industriel/ reservoir.pdf

  • 25
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager