Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Cours générique ML_EKE 1 Apprentissage Automatique (Machine Learning) 1. Introd

Cours générique ML_EKE 1 Apprentissage Automatique (Machine Learning) 1. Introduction L'apprentissage automatique est un sous-domaine de l'intelligence artificielle (IA) dont, l'objectif est de formaliser la connaissance portée par un ensemble de données. Il est question en apprentissage automatique de comprendre la structure des données et de les intégrer dans des modèles qui peuvent être compris et utilisés par les tout le monde. Bien que faisant partie du domaine de l'informatique, l’AM diffère des approches informatiques traditionnelles. En effet dans cette dernière, les algorithmes sont des ensembles d'instructions explicitement programmées et utilisées par les ordinateurs pour calculer ou résoudre des problèmes. Les algorithmes d'apprentissage automatique quant à eux, permettent aux ordinateurs de s'entraîner sur les entrées de données et utilisent l'analyse statistique pour produire des valeurs qui se situent dans une plage spécifique. Pour cette raison, l'apprentissage automatique facilite l'utilisation des ordinateurs dans la construction de modèles à partir de données d'échantillonnage afin d'automatiser les processus de prise de décision en fonction des données saisies. Tout utilisateur des plus récentes technologie bénéficies de l'apprentissage automatique. La technologie de reconnaissance faciale par exemple permet aux plateformes de médias sociaux d'aider les utilisateurs à marquer et partager des photos d'amis. La technologie de reconnaissance optique des caractères (OCR) convertit les images du texte en caractères mobiles. Les moteurs de recommandation, alimentés par l'apprentissage automatique, suggèrent les films ou émissions de télévision à regarder en fonction des préférences de l'utilisateur. Les voitures autonomes qui utiliseront l'apprentissage automatique pour naviguer seront bientôt disponibles pour les consommateurs. L'apprentissage automatique étant un domaine en développement continu, il faut tenir compte de certaines considérations lors de la manipulation des technologies d'apprentissage. Ces considérations regroupent l’ensemble d’hypothèses qui peuvent constituer un biais dans le processus d'apprentissage. Dans cette partie, nous étudierons les méthodes d'apprentissage supervisé et non supervisé, ainsi que les approches algorithmiques courantes de l'apprentissage automatique Nous allons Cours générique ML_EKE 2 explorer L’environnement de programmation MATLAB et PYTHON. De plus, nous discuterons des biais qui sont perpétués par les algorithmes d'apprentissage automatique, et considérons ce qui peut être gardé à l'esprit pour les éviter lors de la manipulation des algorithmes. 2. Quelques éléments de statistiques pour l’analyse des données, bases de connaissance. L’objectif des outils de Statistique descriptive élémentaire est de fournir des résumés synthétiques de séries de valeurs, adaptés à leur type (qualitatives ou quantitatives), et observées sur une population ou un échantillon. Dans le cas d’une seule variable, Les notions les plus classiques sont celles de médiane, quantile, moyenne, fréquence, variance, écart-type définies parallèlement à des représentations graphiques : diagramme en bâton, histogramme, diagramme-boîte, graphiques cumulatifs, diagrammes en colonnes, en barre ou en secteurs. Dans le cas de deux variables, on s’intéresse à la corrélation, au rapport de corrélation ou encore à la statistique d’un test du χ2 associé une table de contingence. Ces notions sont associées à différents graphiques comme le nuage de points (scatterplot), les diagrammes-boîtes parallèles, les diagrammes de profils ou encore en mosaïque. Les définitions de ces différentes notions se trouvent dans n’importe quel ouvrage élémentaire de Statistique, nous nous proposons simplement de rappeler dans ce chapitre certains outils moins classiques mais efficaces et présents dans la plupart des logiciels statistiques. Cela nous permettra également d’illustrer les premières étapes exploratoires à réaliser sur un jeu de données. 2.1 Représentation vectorielles des données a) Notations Cours générique ML_EKE 3 b) Description d’une variable  Cas quantitatif FIG. 2 – Banque : Diagramme-boîte illustrant la distribution de la variable cumulant les totaux des avoirs. Celle-ci apparaît comme très dissymétrique et avec de nombreuses valeurs atypiques. Une transformation s’impose. Cours générique ML_EKE 4 FIG.3 – Banque : Histogramme et estimation fonctionnelle par la m´ethode du noyau de la distribution des âges.  Cas quantitatif Définition. Une modalité est la valeur prise par une variable statistique qu'elle soit qualitative ou quantitative. Les modalités correspondent donc à l'ensemble des valeurs possibles. Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de façon littérale ou par un codage sur lequel les opérations arithmétiques telles que moyenne, somme, ... , n'ont pas de sens. Exemples : Sexe de la personne interrogée, situation familiale, numéro de son département de naissance. NOTE : Cours générique ML_EKE 5  Interprétations statistique de la métrique des poids c) Liaison entre variable  Deux variables quantitatives Cours générique ML_EKE 6 Fig. 4 Nuage de points illustrant l’absence de liaison entre la variable âge et celle cumulant le total des épargnes monétaires (corrélation de 0,17). 2.2 Compléments (voir doc associés) 2.3 Conclusion Cours générique ML_EKE 7 Cours générique ML_EKE 8 3. Méthode d'apprentissage automatique Dans l'apprentissage automatique, les tâches sont généralement classées en grandes catégories. Ces catégories sont basées sur la façon dont l'apprentissage est reçu (ou mise en œuvre) et comment le feedback sur l'apprentissage est donné au système développé. Trois grandes méthodes d'apprentissage automatique sont largement adoptées : - Les méthodes basées sur l’apprentissage supervisé ; - Les méthodes basées sur l’apprentissage non supervisé ; - Les méthodes basées sur l’apprentissage profond. Les méthodes basées sur l’apprentissage supervisé utilisent les algorithmes basés sur des données d'entrée et de sortie étiquetées par l’homme tandis que l’apprentissage non supervisé ne fournit pas à l'algorithme des données étiquetées pour lui permettre de trouver une structure et de découvrir une logique dans données entrées. Toutefois, il se développe des algorithmes qui combine à la fois l’apprentissage supervisée et non supervisé connu sous l’appellation de l’apprentissage semi-supervisé. Explorons donc ces méthodes plus en détail. 2.1 L'apprentissage supervisé Dans l'apprentissage supervisé, on fournit à l'ordinateur des exemples d'entrées qui sont étiquetés (labélisés) avec les sorties souhaitées. Le but de cette méthode est de faire « apprendre » à l'algorithme en comparant sa sortie réelle avec les sorties « enseignées » pour trouver des erreurs et modifier le modèle d’apprentissage obtenu en conséquence. L'apprentissage supervisé utilise donc des modèles (issus de l’apprentissage) pour prédire les valeurs d'étiquettes sur des données non étiquetées supplémentaires. Il existe deux types de sous-problèmes en apprentissage supervisé numérique :  Régression (« Regression ») : lorsque la valeur cible à prédire est continue ;  Classement, classification ou catégorisation (« Classification ») : lorsque la valeur cible à prédire est discrète. Cours générique ML_EKE 9 Par ailleurs nous supposerons également que les objets étudiés qui peuvent être complexes à l'origine (comme des données multimédia) sont représentés dans un format numérique structuré. En d'autres termes :  On représente un objet Xi par un vecteur noté xi défini dans un espace de description composé de plusieurs variables.  A chaque xi on lui associe une valeur cible notée yi. Par exemple, avec un apprentissage supervisé, un algorithme peut être alimenté avec des images de requins étiquetés Poisson des images d'océans étiquetés comme Ocean. En étant formé sur ces données, l'algorithme d'apprentissage supervisé devrait être capable d'identifier plus tard des images de requin non marquées comme Poisson des images océaniques non étiquetées Ocean. Un cas d'utilisation de l'apprentissage supervisé consiste à utiliser des données historiques pour prédire des événements futurs statistiquement probables. Il peut utiliser les informations historiques sur les marchés boursiers pour anticiper les fluctuations à venir ou être utilisé pour filtrer les courriers indésirables. Dans l'apprentissage supervisé, des photos étiquetées de chiens peuvent être utilisées comme données d'entrée pour classer les photos non marquées de chiens. a) Le classement ou classification supervisée La classification supervisée consiste à affecter une classe à toute nouvelle donnée à partir d’une règle de décision construite sur une base de données dont on connait les classes. Formellement, l’apprentissage dans ce cas passe par deux étapes comme l’indique la figure 3.3 ci-dessous. À partir d’une base de données d’apprentissage, l’algorithme structure l’espace de représentation. Il construit ensuite une fonction dite de prédiction qui pour une nouvelle donnée, assigne une sortie correspondante selon l’apprentissage faite au préalable. Il sera ensuite question de valider la fonction de prédiction par une autre opération de test qui permettra de quantifier l’erreur de classification. Cours générique ML_EKE 10 Figure 3.3 : Illustration du processus de mise en œuvre d’un problème de classification supervisée. La mise en œuvre des algorithmes de classification supervisée suppose alors de disposer d’une part, d’un ensemble de données d’apprentissage qui sera divisé en un sous-ensemble de données d’entrainement et en un autre sous-ensemble de données de test, et d’autre part, de nouvelles données à classer dans le cadre de l’exploitation du classifieur. Les données qui constituent la base d’apprentissage sont étiquetées, c’est à dire, à chaque donnée encore appelée point dans l’espace de représentation, est associée une étiquette ou label qui identifie sa classe d’appartenance. Les données d’entrainement servent à construire la fonction de prédiction, tandis que les données de test permettent de valider le processus d’apprentissage et de quantifier l’erreur de prédiction. Pour construire un système d’aide à la décision utilisant les méthodes de classification, on entraine plusieurs classifieurs (algorithmes) avec la même base de données. Le choix de l’algorithme à retenir sera alors guidé par le classifieur qui donnera la plus faible erreur de classification. Les méthodes uploads/Management/ cours-ml.pdf