Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr

Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 Ricco RAKOTOMALALA Université Lumière Lyon 2Introduction à la DATA SCIENCEDu DATA MINING au BIG DATAEnjeux et opportunités Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 1. Data Science - Définition 2. Une première étape importante : le Data Mining 3. Spécificités du Data Mining – Applications 4. Big Data – Nouveauté, virage, évolution ? 5. Enjeux et opportunités 6. Les outils de data science 7. BibliographiePlan Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3DATA SCIENCE Science des données ? De quoi il retourne ? (La notion est très en vogue cf. Google Trends) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4 Data science – Une nouvelle discipline ? Data science is the study of the generalizable extraction of knowledge from data (objet), yet the key word is science. It incorporates varying elements and builds on techniques and theories from many fields, including signal processing, mathematics, probability models, machine learning, statistical learning, computer programming, data engineering, pattern recognition and learning, visualization, uncertainty modeling, data warehousing, and high performance computing… (Double compétence : statistique et informatique) (Wikipédia). Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5 Data science – Un replâtrage de la statistique ? Although use of the term data science has exploded in business environments, many academics and journalists see no distinction between data science and statistics. Writing in Forbes, Gil Press argues that data science is a buzzword without a clear definition and has simply replaced “business analytics” in contexts such as graduate degree programs… (Wikipédia). Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6 Data science – A la croisée de 3 profils STATISTICIEN Connaître et comprendre les techniques de modélisation, d’analyse de données, d’inférence… savoir exploiter les régularités « cachées » dans les données, pourvoyeuses de connaissances INFORMATICIEN Maîtriser les outils pour manipuler les données, développer des stratégies nouvelles pour gérer la profusion de l’information,… CONNAISSANCES METIER Beau travail – Data Scientist - https://www.youtube.com/watch?v=CvupVcSyK68 Data Scientist – Un profil d’avenir (http://pro.clubic.com/it-business/actualite-693592-data-scientist-mouton-5-pattes-coeur-donnees.html) Data Science : Importance des outils (French Data) Data Science & Business Analytics (https://www.youtube.com/watch?v=1ubXgqlHhfw) Toute analyse s’inscrit dans un domaine… qu’il faut connaître pour savoir décoder et exploiter les résultats Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7 Nous sommes à l’heure des « data » … qui arrivent de partout et que l’on sait collecter et conserver Prise de conscience collective… surtout des entreprises… de la valeur ajoutée que l’on peut en tirer Indéniablement, il y a un effet de mode. Les éditeurs de solutions informatiques n’y sont pas étrangers.123 Data science – Pourquoi une telle effervescence aujourd’hui ? Statistique / Analyse de données Data Mining Big Data / Big Analytics La progression s’accompagne d’une évolution des techniques / technologies et des sources d’information.! Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8Statistique Traitement statistique des données Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9 Statistique – Statistique exploratoire Modeling Steps (NIST – e- Handbook of Statistical Methods) Les données sont spécifiquement recueillies à des fins d’étude (ex. enquête, expérimentations, etc.) • Bonne qualité souvent • Faible volumétrie Application des techniques de modélisation et de statistique (X1) PCA_1_Axis_1 vs. (X2) PCA_1_Axis_2 by (Y) carburant Diesel Essence 5 4 3 2 1 0 -1 -2 -3 3 2 1 0 -1 -2 Volume de traitements – de toute manière – limité par les capacités des outils informatiques disponibles (à l’époque). Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10 La démarche Knowledge Discovery in Databases (KDD)DATA MINING Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11? Exemple introductif : demande de crédit bancaire L’expert se fonde sur son « expérience » pour prendre la bonne décision • divorcé • 5 enfants à charge • chômeur en fin de droit • compte à découvert Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12 Comment et à quelles fins utiliser cette expérience accumulée? • coûteuse en stockage • inexploitée pendant longtemps Expérience de l’entreprise : ses clients et leur comportement L’entreprise d’une « expérience » supplémentaire : « l’expérience numérique ». Les différentes bases qui lui permettent de fonctionner, et qui permettent de retracer son activité… Elles constituent une « mémoire » de l’entreprise. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13 Fouille des données (Data Mining) Bases de données Mise en forme des Connaissances Déploiement Exploitation • Echantillonnage • Préparation des données • Visualisation des données • Arbres de décision • Réseaux de neurones • Analyse discriminante • Régression logistique • Tests statistiques • Re-échantillonnage table modèles Connaissances Définition : Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996) Le processus ECD (Extraction de connaissances à partir de données) KDD – Knowledge discovery in Databases (http://www.kdnuggets.com/) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14 CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication Travailler en synergie avec l’expert du domaine est primordial ! Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15 KDD (Data Mining) - http://www.kdnuggets.com/ Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996) Est-ce vraiment nouveau ? Data Mining : Une nouvelle façon de faire de la statistique ? http://cedric.cnam.fr/~saporta/DM.pdf L’analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.» (J.P.Benzécri1973) The basic steps for developing an effective process model ? http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm A comparer avec Data Mining Concepts (Microsoft) ou Data Mining as process (IBM) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16Spécificités du Data Mining ? (1) Sources de données (2) Techniques utilisées (3) Multiplicité des supports Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17 Stockage • orientation analyse • historisées • non-volatiles Production • orientation service (ventes, comptabilité, marketing…) • volatiles Spécif.1 - Les sources de données Bases décisionnelles Les données sont organisées et stockées de manière à ce que nous puissions mener des analyses. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18 Systèmes de gestion (opérationnel) Systèmes décisionnels (analyse) Objectif dédié au métier et à la production ex: facturation, stock, personnel dédié au management de l'entreprise (pilotage et prise de décision) Volatilité (perennité) données volatiles ex: le prix d'un proiduit évolue dans le temps données historisées ex: garder la trace des évolutions des prix, introduction d'une information daté Optimisation pour les opérations associées ex: passage en caisse (lecture de code barre) pour l'analyse et la récapitulation ex: quels les produits achetés ensembles Granularité des données totale, on accède directement aux informations atomiques agrégats, niveau de synthèse selon les besoins de l'analyse B.D. de gestion vs. B.D. décisionnelles Entrepôts / Datamarts : Sources de données pour l’analyse Conséquence : la volumétrie devient un élément important !!! Découverte de connaissances à partir de données volumineuses Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19 Data Mining vs. Informatique Décisionnelle (Business Intelligence) Business intelligence (BI) is a set of theories, methodologies, architectures, and technologies that transform raw data into meaningful and useful information for business purposes. … BI, in simple words, makes interpreting voluminous data friendly (http://en.wikipedia.org/wiki/Business_intelligence). http://www.commentcamarche.net/entreprise/business-intelligence.php3 • Sélectionner les données (vs. un sujet et/ou une période) • Trier, regrouper ou répartir ces données selon certains critères • Élaborer des calculs récapitulatifs « simples » (proportions, moyennes conditionnelles, etc.) • Présenter les résultats de manière synthétique (graphique et/ou tableaux de bord) REPORTING Le Data Mining introduit une dimension supplémentaire qui est la modélisation « exploratoire » (détection des liens de cause à effet, validation de leur reproductibilité) Un autre terme consacré est « analytics ». (http://en.wikipedia.org/wiki/Business_analytics)! Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20 Spécif.2 - Brassage des cultures et des techniques Statistiques Théorie de l’estimation, tests Économétrie Maximum de vraisemblance et moindres carrés Régression linéaire, régression logistique, anova… Analyse de données (Statistique exploratoire) Description factorielle Discrimination Clustering Méthodes géométriques, probabilités ACP, ACM, Analyse discriminante, CAH, … Informatique (Intelligence artificielle) - Machine learning Apprentissage symbolique Reconnaissance de formes Une étape de l’intelligence artificielle Réseaux de neurones, algorithmes génétiques… Informatique (Base de données) Exploration des bases de données Volumétrie Règles d’association, motifs fréquents, …! Très souvent, ces méthodes se rejoignent, mais avec des philosophies / approches / formulations différentes Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21 Les méthodes selon les finalitésMéthodes de Data Mining Description : trouver un résumé des données qui soit plus intelligible • statistique descriptive • analyse factorielle Ex : moyennes conditionnelles, etc. Structuration : Faire ressurgir des groupes « naturels » qui représentent des entités particulières • classification (clustering, apprentissage non- supervisé) Ex : découvrir une typologie de comportement des clients d’un magasin Explication : Prédire les valeurs d’un attribut (endogène) à partir d’autres attributs (exogènes) • régression • apprentissage supervisé Ex : prédire la qualité d’un client (rembourse ou non son crédit) en fonction de ses caractéristiques (revenus, statut marital, nombre d’enfants, etc.) Association : Trouver les ensembles de descripteurs qui sont le plus corrélés • règles d’association Ex : rayonnage de magasins, les personnes qui achètent du poivre achètent également du sel Les méthodes sont le plus souvent complémentaires ! Peut-être devrions-nous dire « méthodes de machine learning » pour être à la mode ? (cf. Google Trends) Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22 Techniques issues de l’Intelligence Artificielle • uploads/Science et Technologie/ 2-intro-ds-from-dm-to-bd-pdf 1 .pdf

  • 10
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager