PRÉSENTATION DU MACHINE LEARNING 1 INTRODUCTION Le machine learning est un doma
PRÉSENTATION DU MACHINE LEARNING 1 INTRODUCTION Le machine learning est un domaine captivant. Issu de nombreuses disciplines comme les statistiques, l’optimisation, l’algorithmique ou le traitement du signal, c’est un champ d’études en mutation constante qui s’est maintenant imposé dans notre société. Déjà utilisé depuis des décennies dans la reconnaissance automatique de caractères ou les filtres anti-spam, il sert maintenant à protéger contre la fraude bancaire, recommander des livres, films, ou autres produits adaptés à nos goûts, identifier les visages dans le viseur de notre appareil photo, ou traduire automatiquement des textes d’une langue vers une autre. Dans les années à venir, le machine learning nous permettra vrai- semblablement d’améliorer la sécurité routière (y compris grâce aux véhicules autonomes), la réponse d’urgence aux catastrophes natu- relles, le développement de nouveaux médicaments, ou l’efficacité énergétique de nos bâtiments et industries. Le but de ce chapitre est d’établir plus clairement ce qui relève ou non du machine learning, ainsi que des branches de ce domaine dont cet ouvrage traitera. OBJECTIFS Définir le machine learning. Identifier si un problème relève ou non du machine learning. Donner des exemples de cas concrets relevant de grandes classes de problèmes de machine learning. 1.1 QU’EST-CE QUE LE MACHINE LEARNING ? Qu’est-ce qu’apprendre, comment apprend-on, et que cela signifie-t-il pour une ma- chine ? La question de l’apprentissage fascine les spécialistes de l’informatique et des mathématiques tout autant que neurologues, pédagogues, philosophes ou artistes. Une définition qui s’applique à un programme informatique comme à un robot, un animal de compagnie ou un être humain est celle proposée par Fabien Benureau (2015) : « L’apprentissage est une modification d’un comportement sur la base d’une expérience ». Dans le cas d’un programme informatique, qui est celui qui nous intéresse dans cet ouvrage, on parle d’apprentissage automatique, ou machine learning, quand ce programme a la capacité d’apprendre sans être programmé. Cette définition est celle donnée par Arthur Samuel (1959). On peut ainsi opposer un programme classique, qui utilise une procédure et les données qu’il reçoit en entrée pour produire en sortie 1 Chapitre 1 r Présentation du machine learning des réponses, à un programme d’apprentissage automatique, qui utilise les données et les réponses afin de produire la procédure qui permet d’obtenir les secondes à partir des premières. Exemple Supposons qu’une entreprise veuille connaître le montant total dépensé par un client ou une cliente à partir de ses factures. Il suffit d’appliquer un algorithme classique, à savoir une simple addition : un algorithme d’apprentissage n’est pas nécessaire. Supposons maintenant que l’on veuille utiliser ces factures pour déterminer quels produits le client est le plus susceptible d’acheter dans un mois. Bien que cela soit vraisemblablement lié, nous n’avons manifestement pas toutes les informa- tions nécessaires pour ce faire. Cependant, si nous disposons de l’historique d’achat d’un grand nombre d’individus, il devient possible d’utiliser un algorithme de ma- chine learning pour qu’il en tire un modèle prédictif nous permettant d’apporter une réponse à notre question. 1.1.1 Pourquoi utiliser le machine learning ? Le machine learning peut servir à résoudre des problèmes • que l’on ne sait pas résoudre (comme dans l’exemple de la prédiction d’achats ci-dessus) ; • que l’on sait résoudre, mais dont on ne sait formaliser en termes algorithmiques comment nous les résolvons (c’est le cas par exemple de la reconnaissance d’images ou de la compréhension du langage naturel) ; • que l’on sait résoudre, mais avec des procédures beaucoup trop gourmandes en ressources informatiques (c’est le cas par exemple de la prédiction d’interactions entre molécules de grande taille, pour lesquelles les simulations sont très lourdes). Le machine learning est donc utilisé quand les données sont abondantes (relative- ment), mais les connaissances peu accessibles ou peu développées. Ainsi, le machine learning peut aussi aider les humains à apprendre : les modèles créés par des algorithmes d’apprentissage peuvent révéler l’importance relative de certaines informations ou la façon dont elles interagissent entre elles pour résoudre un problème particulier. Dans l’exemple de la prédiction d’achats, comprendre le modèle peut nous permettre d’analyser quelles caractéristiques des achats passés per- mettent de prédire ceux à venir. Cet aspect du machine learning est très utilisé dans la recherche scientifique : quels gènes sont impliqués dans le développement d’un certain type de tumeur, et comment ? Quelles régions d’une image cérébrale per- mettent de prédire un comportement ? Quelles caractéristiques d’une molécule en font un bon médicament pour une indication particulière ? Quels aspects d’une image de télescope permettent d’y identifier un objet astronomique particulier ? 2 1.1 Qu’est-ce que le machine learning ? Ingrédients du machine learning Le machine learning repose sur deux piliers fondamentaux : • d’une part, les données, qui sont les exemples à partir duquel l’algorithme va apprendre ; • d’autre part, l’algorithme d’apprentissage, qui est la procédure que l’on fait tourner sur ces données pour produire un modèle. On appelle entraînement le fait de faire tourner un algorithme d’apprentissage sur un jeu de données. Ces deux piliers sont aussi importants l’un que l’autre. D’une part, aucun algorithme d’apprentissage ne pourra créer un bon modèle à partir de données qui ne sont pas pertinentes – c’est le concept garbage in, garbage out qui stipule qu’un algorithme d’apprentissage auquel on fournit des données de mauvaise qualité ne pourra rien en faire d’autre que des prédictions de mauvaise qualité. D’autre part, un modèle appris avec un algorithme inadapté sur des données pertinentes ne pourra pas être de bonne qualité. Cet ouvrage est consacré au deuxième de ces piliers – les algorithmes d’apprentis- sage. Néanmoins, il ne faut pas négliger qu’une part importante du travail de machine learner ou de data scientist est un travail d’ingénierie consistant à préparer les don- nées afin d’éliminer les données aberrantes, gérer les données manquantes, choisir une représentation pertinente, etc. Bien que l’usage soit souvent d’appeler les deux du même nom, il faut distinguer l’algorithme d’apprentissage automatique du modèle appris : le premier utilise les données pour produire le second, qui peut ensuite être appliqué comme un programme classique. Un algorithme d’apprentissage permet donc de modéliser un phénomène à partir d’exemples. Nous considérons ici qu’il faut pour ce faire définir et optimiser un objec- tif. Il peut par exemple s’agir de minimiser le nombre d’erreurs faites par le modèle sur les exemples d’apprentissage. Cet ouvrage présente en effet les algorithmes les plus classiques et les plus populaires sous cette forme. Exemple Voici quelques exemples de reformulation de problèmes de machine learning sous la forme d’un problème d’optimisation. La suite de cet ouvrage devrait vous éclairer sur la formalisation mathématique de ces problèmes, formulés ici très librement. r Un vendeur en ligne peut chercher à modéliser des types représentatifs de clien- tèle, à partir des transactions passées, en maximisant la proximité entre clients et clientes affectés à un même type. r Une compagnie automobile peut chercher à modéliser la trajectoire d’un véhi- cule dans son environnement, à partir d’enregistrements vidéo de voitures, en minimisant le nombre d’accidents. © Dunod - Toute reproduction non autorisée est un délit. 3 Chapitre 1 r Présentation du machine learning r Des chercheurs en génétique peuvent vouloir modéliser l’impact d’une mutation sur une maladie, à partir de données patient, en maximisant la cohérence de leur modèle avec les connaissances de l’état de l’art. r Une banque peut vouloir modéliser les comportements à risque, à partir de son historique, en maximisant le taux de détection de non-solvabilité. Ainsi, le machine learning repose d’une part sur les mathématiques, et en particulier les statistiques, pour ce qui est de la construction de modèles et de leur inférence à partir de données, et d’autre part sur l’informatique, pour ce qui est de la représentation des données et de l’implémentation efficace d’algorithmes d’optimisa- tion. De plus en plus, les quantités de données disponibles imposent de faire appel à des architectures de calcul et de base de données distribuées. C’est un point important mais que nous n’abordons pas dans cet ouvrage. Et l’intelligence artificielle, dans tout ça ? Le machine learning peut être vu comme une branche de l’intelligence artificielle. En effet, un système incapable d’apprendre peut difficilement être considéré comme intelligent. La capacité à apprendre et à tirer parti de ses expériences est en effet essentielle à un système conçu pour s’adapter à un environnement changeant. L’intelligence artificielle, définie comme l’ensemble des techniques mises en œuvre afin de construire des machines capables de faire preuve d’un comportement que l’on peut qualifier d’intelligent, fait aussi appel aux sciences cognitives, à la neurobiologie, à la logique, à l’électronique, à l’ingénierie et bien plus encore. Probablement parce que le terme « intelligence artificielle » stimule plus l’imagi- nation, il est cependant de plus en plus souvent employé en lieu et place de celui d’apprentissage automatique. 1.2 TYPES DE PROBLÈMES DE MACHINE LEARNING Le machine learning est un champ assez vaste, et nous dressons dans cette section une liste des plus grandes classes de problèmes auxquels il s’intéresse. 1.2.1 Apprentissage supervisé L’apprentissage supervisé est peut-être le type de problèmes de machine learning le plus facile à appréhender uploads/Industriel/ 9782100780808-introduction-au-machine-learning-chapitre1 1 .pdf
Documents similaires
-
21
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 15, 2021
- Catégorie Industry / Industr...
- Langue French
- Taille du fichier 0.5992MB