25/12/2006 1 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stép

25/12/2006 1 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 25/12/2006 2 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Présentation de l’auteur • En charge de la statistique et du data mining dans un grand groupe bancaire • Enseigne le data mining en Master 2 dans les Universités de Rennes et Paris-Dauphine • Docteur en Mathématiques • Auteur de : • Data Mining et Scoring (épuisé), Éditions Dunod, 2002 • Data Mining et Statistique Décisionnelle, Éditions Technip, 2005, préface de Gilbert Saporta Ouvrage consacré à l’application en entreprise des techniques et méthodologies de data mining et statistique 25/12/2006 3 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Présentation du cours • Cette présentation est issue de cours donnés dans des DESS et Master 2 d’Économétrie entre 1999 et 2007. • Ces enseignements ont ensuite trouvé un développement dans des ouvrages publiés chez Dunod puis chez Technip. • Ces cours sont donc consacrés aux techniques de data mining, de statistique décisionnelle et de scoring, et à leur mise en oeuvre en entreprise. Ils contiennent une introduction, une partie technique (préparation des données, analyse factorielle, régression linéaire, régression logistique, GLM, analyse discriminante, arbres de décision, réseaux de neurones, algorithmes génétiques, SVM, k-means et centres mobiles, CAH…) et une partie méthodologique (conduite de projet, facteurs de succès, RSI, aspects informatiques, CNIL…). 25/12/2006 4 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Plan du cours • Qu’est-ce que le data mining ? • A quoi sert le data mining ? • Les deux grandes familles de techniques • Le déroulement d’un projet de data mining • Coûts et gains du data mining • Facteurs de succès - Erreurs - Consulting • Informatique décisionnelle et de gestion • La préparation des données • Techniques descriptives de data mining • Techniques prédictives de data mining • Logiciels de statistique et de data mining • CNIL et limites légales du data mining • Le text mining • Le web mining 25/12/2006 5 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Qu’est-ce que le data mining ? 25/12/2006 6 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Place du data mining 25/12/2006 7 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr La fouille de données • Le data mining est l’ensemble des : • algorithmes et méthodes • … destinés à l’exploration et l’analyse • … de (souvent) grandes bases de données informatiques • … en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), des structures particulières restituant de façon concise l’essentiel de l’information utile • … pour l’aide à la décision 25/12/2006 8 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Data mining ≠statistiques descriptives • Les techniques de data mining sont bien sûr plus complexes que de simples statistiques descriptives : • outils d’intelligence artificielle (réseaux de neurones) • algorithmes sophistiqués (algorithmes génétiques, analyse relationnelle) • théorie de l’information (arbres de décision) • beaucoup d’analyse des données « traditionnelle » (analyse factorielle, classification, analyse discriminante, etc.) 25/12/2006 9 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Data mining et statistique 1/2 • Hier : • études de laboratoire • expérimentations cliniques • actuariat • analyses de risque - scoring • Volumes de données limités • Analyse du réel pour mieux le comprendre : • les 1ères observations permettent de formuler des hypothèses théoriques que l’on confirme ou infirme à l’aide de tests statistiques 25/12/2006 10 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Data mining et statistique 2/2 • Aujourd’hui : • de l’∞petit (génomique) à l’∞grand (astrophysique) • du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique) • du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires) • du plus industriel (contrôle qualité…) au plus théorique (sciences humaines, biologie…) • du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV) • Volumes de données importants • Systèmes d’aide à la décision plus ou moins automatiques 25/12/2006 11 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Des statistiques ... • Statistique : • quelques centaines d’individus • quelques variables recueillies avec un protocole spécial (échantillonnage, plan d’expérience...) • fortes hypothèses sur les lois statistiques suivies • les modèles sont issus de la théorie et confrontés aux données • méthodes probabilistes et statistiques • utilisation en laboratoire • Analyse des données : • quelques dizaines de milliers d’individus • quelques dizaines de variables • construction des tableaux « Individus x Variables » • importance du calcul et de la représentation visuelle 25/12/2006 12 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr ... au Data mining • Data mining : • plusieurs millions d’individus • plusieurs centaines de variables • nombreuses variables non numériques, parfois textuelles • données recueillies avant l’étude, et souvent à d’autres fins • données imparfaites, avec des erreurs de saisie, de codification, des valeurs manquantes, aberrantes • population constamment évolutive (difficulté d’échantillonner) • nécessité de calculs rapides, parfois en temps réel • on ne recherche pas toujours l’optimum mathématique, mais le modèle le plus facile à appréhender par des utilisateurs non- statisticiens • faibles hypothèses sur les lois statistiques suivies • les modèles sont issus des données et on en tire des éléments théoriques • méthodes statistiques, d’intelligence artificielle et de théorie de l’apprentissage (« machine learning ») • utilisation en entreprise 25/12/2006 13 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Préhistoire • 1875 : régression linéaire de Francis Galton • 1896 : formule du coefficient de corrélation de Karl Pearson • 1900 : distribution du χ² de Karl Pearson • 1936 : analyse discriminante de Fisher et Mahalanobis • 1941 : analyse factorielle des correspondances de Guttman • 1943 : réseaux de neurones de Mc Culloch et Pitts • 1944 : régression logistique de Joseph Berkson • 1958 : perceptron de Rosenblatt • 1962 : analyse des correspondances de J.-P. Benzécri • 1964 : arbre de décision AID de J.P.Sonquist et J.-A.Morgan • 1965 : méthode des centres mobiles de E. W. Forgy • 1967 : méthode des k-means de Mac Queen • 1972 : modèle linéaire généralisé de Nelder et Wedderburn 25/12/2006 14 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Histoire • 1975 : algorithmes génétiques de Holland • 1975 : méthode de classement DISQUAL de Gilbert Saporta • 1980 : arbre de décision CHAID de KASS • 1983 : régression PLS de Herman et Svante Wold • 1984 : arbre CART de Breiman, Friedman, Olshen, Stone • 1986 : perceptron multicouches de Rumelhart et McClelland • 1989 : réseaux de T. Kohonen (cartes auto-adaptatives) • vers 1990 : apparition du concept de data mining • 1993 : arbre C4.5 de J. Ross Quinlan • 1996 : bagging (Breiman) et boosting (Freund-Shapire) • 1998 : support vector machines de Vladimir Vapnik • 2000 : régression logistique PLS de Michel Tenenhaus • 2001 : forêts aléatoires de L. Breiman 25/12/2006 15 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Le data mining aujourd’hui • Ces techniques ne sont pas toutes récentes • Ce qui est nouveau, ce sont aussi : • la recherche en IA et en théorie de l’apprentissage • les capacités de stockage et de calcul offertes par le matériel et les techniques informatiques modernes • la constitution de giga-bases de données pour les besoins de gestion des entreprises • les logiciels universels, puissants et conviviaux • l’intégration du data mining dans les processus de production Îqui permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises 25/12/2006 16 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Le data mining aujourd’hui • Le data mining se répand particulièrement dans les secteurs qui, par leur activité, détiennent de nombreuses informations économiques et comportementales individualisées : VPC, grande distribution, téléphonie, banque... • Selon le MIT (Massachussets Institute of Technology) : le data mining est l’une des 10 technologies émergentes qui « changeront le monde » au XXIe siècle. 25/12/2006 17 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Data mining et CRM 25/12/2006 18 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr Rappel : Gestion de la relation client • La richesse des entreprises : leurs clients • Objectifs des entreprises : • augmenter la rentabilité et la fidélité de leurs clients • en maîtrisant les risques • en utilisant les bons canaux au bon moment pour vendre le bon produit • Un des moyens d’y parvenir : • la Gestion de la Relation Client (GRC) • synonyme : Customer Relationship Management (CRM) • 2 éléments : CRM analytique, CRM opérationnel • Une matière 1ère précieuse : les données sur les clients 25/12/2006 19 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr CRM analytique et opérationnel gestion des canaux → collecte des informations clients ↑ ↓ gestion des campagnes ← analyse des informations clients CRM OPÉRATIONNEL CRM ANALYTIQUE 25/12/2006 20 © uploads/Management/ data-mining-amp-statistique-decisionnelle 2 .pdf

  • 38
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jul 06, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.2577MB