Statistique, Big–Data–Mining, Apprentissage Statistique, Big–Data–Mining, Appre
Statistique, Big–Data–Mining, Apprentissage Statistique, Big–Data–Mining, Apprentissage Résumé L’objet de ce cours est d’introduire, sous une forme homogène et synthétique, les techniques de modélisation statistique ou d’appren- tissage supervisé utilisées le plus couramment en fouille de données volumineuses ou de grande dimension (data mining, big data) pour l’aide à la décision dans des champs d’applications très divers : industriels, marketing, ou encore en relation avec des thématiques de recherche en Biologie, Épidémiologie... L’objectif principal est la modélisation pour la prévision et donc la recherche de modèles opti- maux (parcimonieux) pour différentes méthodes de modélisation sta- tistique classique (modèles gaussiens et binomiaux, analyse discri- minante), moins classiques (ridge, pls, lasso, arbres binaires de dé- cision) ou encore dites d’apprentissage (réseaux de neurones, agré- gation de modèles, machines à vecteurs supports) issues du machine learning. – Statistique, Big–Data–Mining,Apprentissage – Erreur de prévision et risque – Sélection de variables et régularisation en régression multiple – Régression PLS, ACP et PLS parcimonieuses – Régression logistique – Modèles non paramétriques – Analyse discriminante décisionnelle – Arbres binaires de décision – Réseaux neuronaux – Agrégation de modèles – Machines à vecteurs supports – En guise de conclusion – Annexes – Déontologie scientifique et Statistique – Introduction au bootstrap 1 Introduction 1.1 Un peu d’histoire 1940-70 – hOctets Il était une fois la Statistique : une question, (i.e. biolo- gique), associée à une hypothèse expérimentalement réfutable, une ex- périence planifiée avec n ≈30 individus observés sur p (moins de 10) variables, un modèle linéaire supposé vrai, un test, une décision, une ré- ponse. 1970s – kO Les premiers outils informatiques se généralisant, l’analyse des données en France, (multivariate statistics ailleurs : Mardia et al. (1979) [4]) explore, prétendument sans modèle, des données plus volumineuses. 1980s – MO En Intelligence Artificielle, les systèmes experts expirent, sup- plantés par l’apprentissage (machine learning) des réseaux de neurones. La Statistique aborde des modèles non-paramétriques ou fonctionnels. 1990s – GO Premier changement de paradigme. Les données ne sont plus planifiées, elles sont préalablement acquises et basées dans des entrepôts pour les objectifs usuels (i.e. comptables) de l’entreprise. L’aide à la déci- sion les valorise : From Data Mining to Knowledge Discovery (Fayyad et al., 1996)[1]. Les logiciels de fouille regroupent dans un même environ- nement des outils de gestions de données, des techniques exploratoires et de modélisation statistique). C’est l’avènement du marketing quantitatif et de la gestion de la relation client (GRC ou CRM). 2000s –TO Deuxième changement de paradigme. Le nombre p de variables explose (de l’ordre de 104 à 106), notamment avec les biotechnologies omiques où p >> n. L’objectif de qualité de prévision l’emporte sur la réalité du modèle devenu “boîte noire”. Face au fléau de la dimension, Apprentissage Machine et Statistique s’unissent en Apprentissage Statis- tique (statistical learning, Hastie et al. 2001-2009)[2] : sélectionner des modèles en équilibrant biais vs. variance ; minimiser conjointement er- reurs d’approximation (biais) et erreur d’estimation (variance). 2010s – PO Troisième changement de paradigme. Dans les applications in- dustrielles, le e-commerce, la géo-localisation... c’est le nombre n d’in- dividus qui explose, les bases de données débordent, se structurent en nuages (cloud), les moyens de calculs se groupent (cluster), mais la puis- sance brute ne suffit plus à la voracité (greed) des algorithmes. Un troi- 1 Statistique, Big–Data–Mining, Apprentissage sième terme d’erreur est à prendre en compte : celle d’optimisation, in- duite par la limitation du temps de calcul ou celle du volume / flux de données considéré. La décision devient adaptative ou séquentielle. 1.2 Contenu Les données volumineuses sont au cœur des problématiques émergentes de recherche, en faisant notamment appel à des structures de données sophisti- quées : graphes, fonctions, variétés. Chaque problème est porteur de sa propre originalité ; ils ne seront pas abordés dans ce cours qui se limite aux articu- lations : Statistique, Apprentissage Machine, fouille de données et donc au problème central de l’équilibre biais — variance. Ainsi, le data mining est présenté comme la recherche d’informations perti- nentes (des “pépites” d’information) pour l’aide à la décision et la prévision. Il met en œvre des techniques statistiques et d’apprentissage machine en tenant compte de la spécificité de grandes à très grandes dimensions des données. La section 2 suivante introduit à la fouille de données tandis que la section 3 reprend ces objectifs dans le cadre général de la modélisation afin d’en élar- gir les champs d’application. La section 4 décrit la stratégie très généralement mise en place pour optimiser choix de méthodes et choix de modèles ; la sec- tion 5 décrit brièvement quelques exemples d’application et notamment ceux utilisés pour illustrer ce cours. Enfin, la section 6 liste rapidement les méthodes qui sont abordées et les raisons qui ont conduit à ces choix. 2 Motivations du data mining 2.1 Origine Le développement des moyens informatiques et de calcul permet le stockage (bases de données), le traitement et l’analyse d’ensembles de données très vo- lumineux. Plus récemment, le perfectionnement des logiciels et de leurs in- terfaces offrent aux utilisateurs, statisticiens ou non, des possibilités de mise en œuvre très simples de ces méthodes. Cette évolution, ainsi que la popula- risation de nouvelles techniques algorithmiques (réseaux de neurones, support vector machine...) et outils graphiques, conduit au développement et à la com- mercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) intégrant un sous-ensemble de méthodes statistiques et algorithmiques utili- sées sous la terminologie de Data Mining généralement traduit par fouille de données (voir Tufféry 2007 [5] pour un exposé “métier” plus détaillé). Cette approche, dont la présentation est principalement issue du marketing spécia- lisé dans la gestion de la relation client (GRC) (client relation management ou CRM), trouve également des développements et applications industrielles en contrôle de qualité ou même dans certaines disciplines scientifiques dès lors que les ingénieurs et chercheurs sont confrontés à un volume de données important. L’accroche publicitaire souvent citée par les éditeurs de logiciels (SAS) est : Comment trouver un diamant dans un tas de charbon sans se salir les mains. Nous proposons d’évaluer et d’expérimenter la réalité de cette annonce qui s’adresse à un marché en pleine expansion. Les entreprises sont en effet très motivées pour tirer parti et amortir, par une aide à la décision quantifiée, les coûts de stockage des téraoctets que leur service informatique s’emploie à ad- ministrer. 2.2 Environnement Le contexte informationnel de la fouille de données est celui des data wha- rehouses. Un entrepôt de données, dont la mise en place est assuré par un ges- tionnaire de données (data manager) est un ensemble de bases relationnelles extraites des données brutes de l’entreprise et relatives à une problématique : – gestion des stocks (flux tendu), des ventes d’un groupe afin de prévoir et anticiper au mieux les tendances du marché, – suivi des fichiers clients d’une banque, d’une assurance, associés à des données socio-économiques (INSEE), à l’annuaire, en vue de la constitu- tion d’une segmentation (typologie) pour cibler des opérations de marke- ting ou des attributions de crédit. La gestion de la relation client (GRC ou CRM) vise à une individualisation ou personnalisation de la production et de la communication afin d’évacuer la notion de client moyen. – recherche, spécification puis ciblage de niches de marché les plus profi- tables (banque) ou au contraire les plus risquées (assurance) ; – suivi en ligne des paramètres de production (traçabilité) en contrôle de qualité pour détecter au plus vite l’origine d’une défaillance ; – prospection textuelle (text mining) et veille technologique ; – web mining et comportement des internautes ; 2 Statistique, Big–Data–Mining, Apprentissage – ... Cet environnement se caractérise par – une informatique hétérogène faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) à travers le réseau de l’entreprise (intranet) ou même des accès extérieurs (internet). Des contraintes d’efficacité, de fiabilité ou de sécurité conduisent à répartir, stocker l’information à la source plutôt qu’à la dupliquer systématiquement ou à la centraliser. – L’incompatibilité logique des informations observées sur des échantillons différents ne présentant pas les mêmes strates, les mêmes codifications. – Des volumes et flux considérables de données issues de saisies automati- sées et chiffrés en téraoctets. – Contrairement à une démarche statistique traditionnelle (planification de l’expérience), les données analysées sont stockées à d’autres fins (comp- tabilité, contrôle de qualité...) et sont donc préalables à l’analyse. – La nécessité de ne pas exclure a priori un traitement exhaustif des don- nées afin de ne pas laisser échapper, à travers le crible d’un sondage, des groupes de faibles effectifs mais à fort impact économique. 3 Apprentissage statistique Un peu de recul permet d’inscrire la démarche de la fouille de données dans un contexte plus large et donc potentiellement plus propice à d’autres domaines d’application. 3.1 Objectif général Dès qu’un phénomène, qu’il soit physique, biologique ou autre, est trop complexe ou encore trop bruité pour accéder à une description analytique dé- bouchant sur une modélisation déterministe, un ensemble d’approches ont été élaborées afin d’en décrire au mieux le comportement à partir d’une série d’ob- servations. Voici quelques exemples de problèmes d’apprentissage : uploads/Management/cours-statistique-datamining-et-bio-info.pdf
Documents similaires










-
40
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 11, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.3199MB