Économétrie & Machine Learning Arthur Charpentier Université de Rennes 1 & CREM

Économétrie & Machine Learning Arthur Charpentier Université de Rennes 1 & CREM Emmanuel Flachaire Aix-Marseille Université, AMSE, CNRS & EHESS et Antoine Ly Université Paris-Est Résumé L’économétrie et l’apprentissage machine semblent avoir une finalité en commun: construire un modèle prédictif, pour une variable d’intérêt, à l’aide de variables explicatives (ou features). Pourtant, ces deux champs se sont développés en parallèle, créant ainsi deux cultures différentes, pour paraphraser Breiman (2001a). Le premier visait à construire des modèles probabilistes permettant de décrire des phénomèmes économiques. Le second utilise des algorithmes qui vont apprendre de leurs erreurs, dans le but, le plus souvent de classer (des sons, des images, etc). Or récemment, les modèles d’apprentissage se sont montrés plus efficaces que les techniques économétriques traditionnelles (avec comme prix à payer un moindre pouvoir explicatif), et surtout, ils arrivent à gérer des données beaucoup plus volumineuses. Dans ce contexte, il devient nécessaire que les économètres comprennent ce que sont ces deux cultures, ce qui les oppose et surtout ce qui les rapproche, afin de s’approprier des outils développés par la communauté de l’apprentissage statistique, pour les intégrer dans des modèles économétriques. JEL Code: C18; C52; C55 Key-words: apprentissage; données massives; économétrie; modélisation; moindres carrés; Juillet 2017 Contents 1 Introduction 2 1.1 La Modélisation économétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Les Données massives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Statistique computationnelle et non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5 Plan de l’article . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Économétrie et modèle probabiliste 5 2.1 Lois conditionnelles et vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Géométrie du modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Du paramétrique au non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.5 Famille exponentielle et modèles linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.6 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.7 Qualité d’un ajustement et choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.8 Économétrie et tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.9 Sous- et sur-identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.10 Quitter la corrélation pour quantifier un effet causal . . . . . . . . . . . . . . . . . . . . . . . 11 3 Philosophie des méthodes de machine learning 12 3.1 Apprentissage et fonctions de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2 Apprentissage machine et optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 Autres fonctions de perte et interprétations probabilistes . . . . . . . . . . . . . . . . . . . . . 13 3.4 Boosting et apprentissage séquentiel (Lent) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.5 Sur-apprentissage et pénalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.6 In-sample et out-of-sample . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.7 Techniques de validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4 Quelques algorithmes de machine learning 18 4.1 Réseaux de Neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2 Support Vecteurs Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.3 Arbres, Bagging et Forêts Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.4 Sélection de modèle de classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.5 De la classification à la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 5 Applications 26 5.1 Les ventes de sièges auto pour enfants (classification) . . . . . . . . . . . . . . . . . . . . . . . 26 5.2 L’achat d’une assurance caravane (classification) . . . . . . . . . . . . . . . . . . . . . . . . . 28 5.3 Les défauts de remboursement de crédits particuliers (classification) . . . . . . . . . . . . . . 29 5.4 Les déterminants des salaires (régression) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.5 Les déterminants des prix des logements à Boston (régression) . . . . . . . . . . . . . . . . . . 31 6 Conclusion 33 1 1 Introduction L’utilisation de techniques quantitatives en économie remonte probablement au 16ème siècle, comme le montre Morgan (1990). Mais il faudra attendre le début du XXième siècle pour uploads/Industriel/ econometrics-ml-final-1.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager