HAL Id: hal-01568851 https://hal.archives-ouvertes.fr/hal-01568851v2 Submitted

HAL Id: hal-01568851 https://hal.archives-ouvertes.fr/hal-01568851v2 Submitted on 19 Mar 2018 (v2), last revised 25 May 2018 (v3) HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Économétrie & Machine Learning Arthur Charpentier, Emmanuel Flachaire, Antoine Ly To cite this version: Arthur Charpentier, Emmanuel Flachaire, Antoine Ly. Économétrie & Machine Learning. 2018. <hal-01568851v2> Économétrie & Machine Learning Arthur Charpentier Université de Rennes 1 & CREM 7 Place Hoche, 35065 Rennes Cedex, France arthur.charpentier@univ-rennes1.fr Emmanuel Flachaire Aix-Marseille Université, AMSE, CNRS & EHESS 5 bd Maurice Bourdet, CS 50498, 13205 Marseille Cedex 01, France emmanuel.flachaire@univ-amu.fr et Antoine Ly Université Paris-Est 5, boulevard Descartes, 77454 Marne-la-Vallée cedex, France antoine.ly@gmail.com Résumé L’économétrie et l’apprentissage machine semblent avoir une finalité en commun: construire un modèle prédictif, pour une variable d’intérêt, à l’aide de variables explicatives (ou features). Pourtant, ces deux champs se sont développés en parallèle, créant ainsi deux cultures différentes, pour paraphraser Breiman (2001a). Le premier visait à construire des modèles probabilistes permettant de décrire des phénomèmes économiques. Le second utilise des algorithmes qui vont apprendre de leurs erreurs, dans le but, le plus souvent de classer (des sons, des images, etc). Or récemment, les modèles d’apprentissage se sont montrés plus efficaces que les techniques économétriques traditionnelles (avec comme prix à payer un moindre pouvoir explicatif), et surtout, ils arrivent à gérer des données beaucoup plus volumineuses. Dans ce contexte, il devient nécessaire que les économètres comprennent ce que sont ces deux cultures, ce qui les oppose et surtout ce qui les rapproche, afin de s’approprier des outils développés par la communauté de l’apprentissage statistique, pour les intégrer dans des modèles économétriques. JEL Code: C18; C52; C55 Key-words: apprentissage; données massives; économétrie; modélisation; moindres carrés; Mars 2018 Contents 1 Introduction 2 1.1 La Modélisation économétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 De la grande dimension aux données massives . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Statistique computationnelle et non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5 Plan de l’article . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Économétrie et modèle probabiliste 6 2.1 Fondements de la statistique mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Lois conditionnelles et vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Les résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Géométrie du modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.5 Du paramétrique au non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.6 Famille exponentielle et modèles linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.7 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.8 Régression en grande dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.9 Qualité d’un ajustement et choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.10 Économétrie et tests statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.11 Quitter la corrélation pour quantifier un effet causal . . . . . . . . . . . . . . . . . . . . . . . 14 3 Philosophie des méthodes de machine learning 15 3.1 Apprentissage par une machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2 Le tournant des années 80/90 et le formalisme probabiliste . . . . . . . . . . . . . . . . . . . 16 3.3 Le choix de l’objectif et la fonction de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4 Boosting et apprentissage séquentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.5 Pénalisation et choix de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.6 Optimisation et aspects algorithmiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.7 In-sample, out-of-sample et validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4 Quelques outils de machine learning 27 4.1 Réseaux de Neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2 Support Vecteurs Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3 Arbres, Bagging et Forêts Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.4 Sélection de modèle de classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.5 De la classification à la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5 Applications 35 5.1 Les ventes de sièges auto pour enfants (classification) . . . . . . . uploads/Industriel/ revision-econometrics-ml.pdf

  • 24
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager