Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Machine learning avec R Pour une modélisation mathématique rigoureuse Scott V.

Machine learning avec R Pour une modélisation mathématique rigoureuse Scott V. Burger Machine learning avec R Traduction française publiée et vendue avec l’autorisation de O’Reilly Media, Inc. de Introduction to Machine Learning with R ISBN 9781491976449 © 2018 Scott Burger. © 2018 Éditions First, un département d’Édi8. 12, avenue d’Italie 75013 Paris – France Tél. : 01 44 16 09 00 Fax : 01 44 16 09 01 Courriel : firstinfo@editionsfirst.fr Site Internet : lisez.com ISBN : 978-2-412-04115-4 ISBN numérique : 9782412043387 Dépôt légal : octobre 2018 Traduction de l’anglais : Daniel Rougé Mise en page : Pierre Brandeis Cette œuvre est protégée par le droit d’auteur et strictement réservée à l’usage privé du client. Toute reproduction ou diffusion au profit de tiers, à titre gratuit ou onéreux, de tout ou partie de cette œuvre est strictement interdite et constitue une contrefaçon prévue par les articles L 335-2 et suivants du Code de la propriété intellectuelle. L’éditeur se réserve le droit de poursuivre toute atteinte à ses droits de propriété intellectuelle devant les juridictions civiles ou pénales. Ce livre numérique a été converti initialement au format EPUB par Isako www.isako.com à partir de l'édition papier du même ouvrage. Introduction Dans cette courte introduction, j’aborde quelques points clés. Qui devrait lire ce livre ? Ce livre est idéal pour les personnes qui ont déjà une connaissance pratique du langage de programmation R. Si vous n’avez aucune connaissance de R, sachez que c’est un langage assez facile à assimiler, et que son code en est suffisamment lisible pour que vous puissiez tirer le meilleur parti des exemples proposés ici. Portée du livre Ce livre est une introduction à l’apprentissage automatique avec le langage R. Nous ne plongerons donc pas profondément dans les fondements mathématiques de chaque algorithme couvert dans cet ouvrage. Mais vous trouverez ici suffisamment de détails pour que vous puissiez discerner les différences essentielles entre un réseau de neurones et, disons, une forêt aléatoire. Conventions utilisées dans ce livre Dans ce livre, nous utiliserons les conventions typographiques suivantes : Italique Indique un terme nouveau, ou nom de fichier ou encore une extension. Largeur constante Cette typographie est utilisée dans les listings de programmes, ainsi que dans tout ce qui peut, dans un paragraphe, faire référence à un nom de variable ou de fonction, à des bases ou des types de données, des variables d’environnement, des instructions ou encore des mots-clés. Elle est également utilisée pour les noms de modules et de packages, ainsi que pour la sortie des commandes. Cet élément signale une astuce ou une suggestion. Cet élément signale une note d’ordre général. Cette icône attire l’attention sur un avertissement ou un problème potentiel. CHAPITRE 1 Qu’est-ce qu’un modèle ? Il fut un temps, au cours de mes études de premier cycle en physique, où j’étais excité à l’idée d’apprendre ce qu’était un modèle. Je me souviens assez bien de la scène. Nous étions dans une classe « Étoiles et Galaxies », et nous nous préparions à apprendre des modèles atmosphériques qui pourraient être appliqués non seulement à la Terre, mais aussi à d’autres planètes du système solaire. J’avais assez de connaissances sur les modèles climatiques pour savoir qu’ils étaient compliqués, et donc je m’étais préparé à un assaut de formules de maths qui me prendraient des semaines à analyser. Quand nous sommes finalement arrivés au cœur du sujet, je me rappelle que j’avais été un peu déçu : j’avais déjà eu affaire à des modèles de données dans le passé et je ne m’en étais même pas rendu compte ! Du fait que les modèles représentent un aspect fondamental de l’apprentissage automatique, il n’est peut-être pas surprenant que cette histoire reflète la manière dont j’ai appris à comprendre ce domaine. Au cours de mes études supérieures, j’étais sur le point de me lancer dans l’industrie de la finance. J’avais entendu dire que l’apprentissage automatique était largement utilisé dans ce monde et, en tant qu’étudiant en physique, je sentais que j’aurais besoin d’être plutôt un ingénieur en informatique pour être compétitif. Je me suis alors rendu compte que non seulement l’apprentissage automatique n’était pas aussi effrayant que je le pensais à l’origine, mais que je l’avais en réalité déjà utilisé auparavant. Et même avant le lycée ! Les modèles sont utiles parce que, contrairement aux tableaux de bord qui offrent une image statique de ce que les données montrent à un certain instant (ou pour une période de temps particulière), les modèles peuvent aller plus loin et vous aider à comprendre l’avenir. Par exemple, une personne qui travaille au sein d’une équipe de vente peut n’être familière qu’avec des rapports qui montrent une image statique. Peut-être que son écran est systématiquement à jour avec les chiffres de ventes quotidiennes. Il y a eu d’innombrables tableaux de bord que j’ai vus (et même construits), et qui disent simplement « voici le nombre d’actifs en ce moment ». Ou encore : « voici notre indicateur clé de performance pour aujourd’hui ». Un tel rapport est une entité statique qui n’offre aucune intuition quant à son évolution dans le temps. La Figure 1.1 montre à quoi pourrait ressembler un tel rapport : op <- par(mar = c(10, 4, 4, 2) + 0.1) #formatage des marges barplot(mtcars$mpg, names.arg = row.names(mtcars), las = 2, ylab = "Rendement Carburant en Miles par Gallon") Figure 1.1 : Distribution montrant l’efficacité énergétique de véhicules basée sur le jeu de données mtcars qui est directement intégré à R. La Figure 1.1 représente un tracé obtenu à partir du jeu de données mtcars qui est préinstallé avec R. Elle montre un tracé pour un certain nombre de voitures en fonction de leur consommation de carburant exprimée en miles par gallon US. Ce rapport n’est pas très utile en soi (d’autant que les données datent de 1974…). Il ne nous donne en effet aucun pouvoir de prédiction. Il peut bien sûr être intéressant de voir quelle est l’efficacité des voitures en termes de consommation, mais comment pouvons-nous établir un lien avec d’autres éléments présents dans les données et, de plus, faire des prédictions à partir de ces mêmes données ? Un modèle est une certaine fonction qui a un pouvoir prédictif. Comment alors transformer ce rapport ennuyeux en quelque chose de plus utile ? Comment combler le fossé entre ce reporting et l’apprentissage automatique ? Souvent, la réponse correcte à cette question est « plus de données » ! Cela peut se réaliser sous la forme d’un plus grand nombre d’observations portant sur les mêmes données, ou par la collecte de nouveaux types de données que nous pourrons ensuite utiliser à des fins de comparaison. Reprenons le jeu de données mtcars intégré à R et observons-le plus en détail : head(mtcars) ## mpg cyl disp hp drat wt qsec vs am gear carb ## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 ## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 ## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 ## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 ## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 ## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 En appelant simplement l’objet mtcars intégré dans R, nous pouvons observer toutes sortes de colonnes dans les données à partir desquelles il est possible de faire un choix pour construire un modèle d’apprentissage automatique. Dans le monde de l’apprentissage automatique, les colonnes de données sont parfois aussi appelées caractéristiques. Maintenant que nous savons ce dont nous disposons pour travailler, nous pourrions essayer de voir s’il y a un lien entre le rendement énergétique de la voiture et l’une de ces caractéristiques. C’est ce qu’illustre la Figure 1.2 : pairs(mtcars[1:7], lower.panel = NULL) Figure 1.2 : Diagrammes de dispersion par paires de caractéristiques du jeu de données mtcars, en se concentrant sur les sept premières lignes. Chaque case est un tracé distinct, pour lequel la variable dépendante est la zone de texte qui se trouve au bas de la colonne, et la variable indépendante est la zone de texte placée au début de la ligne. Aucun des tracés de la rangée des cylindres, par exemple, ne semble se prêter facilement à une modélisation par régression simple. Dans cet exemple, nous comparons certaines de ces caractéristiques à d’autres. Les colonnes, ou caractéristiques, de ces données sont définies comme suit : mpg Miles par gallon US cyl Nombre de cylindres dans le moteur de la voiture disp La cylindrée du moteur en pouces cubiques hp La puissance du moteur drat Le rapport de l’essieu arrière du véhicule wt Le poids du véhicule (en milliers de livres) qsec Le temps du véhicule pour parcourir un quart de mile vs La configuration du moteur du véhicule 5« V » pour un moteur en V, « S » pour un moteur en ligne am La transmission du véhicule uploads/S4/ le-machine-learning-avec-r-modelisation-mathematique-rigoureuse-french-edition-by-scott-v-burger-burger-scott-v.pdf