O Laboratoire d’Informatique Fondamentale de Lille OP AC OP AC Fouille de donné

O Laboratoire d’Informatique Fondamentale de Lille OP AC OP AC Fouille de données (Data Mining) - Un tour d’horizon - E-G. Talbi talbi@lifl.fr Introduction au Data Mining Introduction au Data Mining ƒ Définition du Data Mining ƒ Pourquoi le Data Mining ? ƒ Description du processus KDD (Knowledge Data Discovery) ƒ Applications ƒ Tâches et Techniques du Data Mining Qu’est-ce que le DM ? Qu’est-ce que le DM ? ƒ Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de données valides, nouveaux, utiles et compréhensibles. ƒ Itératif : nécessite plusieurs passes ƒ Interactif : l’utilisateur est dans la boucle du processus ƒ Valides : valables dans le futur ƒ Nouveaux : non prévisibles ƒ Utiles : permettent à l’utilisateur de prendre des décisions ƒ Compréhensibles : présentation simple Notion d’induction [Peirce 1903] ƒ Abduction : diagnostic médical, ... ƒ Toutes les voitures ont 4 roues ƒ La Peugeot 206 a 4 roues ƒ ==> La Peugeot 206 est une voiture ƒ Déduction : Raisonnement qui conclut à partir de prémisses et d’hypothèses à la vérité d’une proposition en usant des règles d’inférence ƒ Toutes les voitures ont 4 roues ƒ La Peugeot 206 est une voiture ƒ ==> La Peugeot 206 a 4 roues Notion d’induction [Peirce 1903] ƒ Induction : Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers. ƒ Utilisée en Data mining (tirer une conclusion à partir d ’une série de faits, pas sûre à 100%) ƒ La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190 a 4 roues ƒ ==> Toutes les voitures ont 4 roues Motivations (1) Motivations (1) ƒ Explosion des données ƒ Masse importante de données (millions de milliards d’instances) : elle double tous les 20 mois. ƒ BD très larges - Very Large Databases (VLDB) ƒ Données multi-dimensionnelles (milliers d’attributs) ƒ BD denses ƒ Inexploitables par les méthodes d’analyse classiques ƒ Collecte de masses importantes de données (Gbytes/heure) ƒ Données satellitaires, génomiques (micro-arrays, …), simulations scientifiques, etc. ƒ Besoin de traitement en temps réel de ces données Motivations (2) Motivations (2) ƒ Améliorer la productivité ƒ Forte pression due à la concurrence du marché ƒ Brièveté du cycle de vie des produits ƒ Besoin de prendre des décisions stratégiques efficaces ƒ Exploiter le vécu (données historiques) pour prédire le futur et anticiper le marché ƒ individualisation des consommateurs (dé-massification). ƒ Croissance en puissance/coût des machines capables ƒ de supporter de gros volumes de données ƒ d’exécuter le processus intensif d’exploration ƒ hétérogénéité des supports de stockage Motivations (3) Motivations (3) Mount 431 7437 1950 79% / 02 631963 47358 93% /us File E dit L ocate V iew H elp 1 2 3 4 5 6 7 0 100 200 300 400 500 E D C B A Network Traffic H elp Internet Internet Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Storage Masse importante de données – supports hétérogènes Le processus de découverte de connaissances Le processus de découverte de connaissances ƒ Data mining : coeur de KDD (Knowledge Data Discovery). Data Mining Data Mining Collecte, Nettoyage, Intégration Collecte, Nettoyage, Intégration Préparation des données Préparation des données Données d’apprentissage Data Warehouse Vérification & Evaluation Vérification & Evaluation Sources de données Modèles, Patterns Démarche méthodologique (1) Démarche méthodologique (1) ƒ Comprendre l’application ƒ Connaissances a priori, objectifs, etc. ƒ Sélectionner un échantillon de données ƒ Choisir une méthode d’échantillonnage ƒ Nettoyage et transformation des données ƒ Supprimer le «bruit» : données superflues, marginales, données manquantes, etc. ƒ Effectuer une sélection d’attributs, réduire la dimension du problème, etc. ƒ Appliquer les techniques de fouille de données ƒ Choisir le bon algorithme Démarche méthodologique (2) Démarche méthodologique (2) ƒ Visualiser, évaluer et interpréter les modèles découverts ƒ Analyser la connaissance (intérêt) ƒ Vérifier sa validité (sur le reste de la base de données) ƒ Réitérer le processus si nécessaire ƒ Gérer la connaissance découverte ƒ La mettre à la disposition des décideurs ƒ L’échanger avec d’autres applications (système expert, …) ƒ etc. Data Mining et aide à la décision Data Mining et aide à la décision Potentiel de support de décision Utilisateur(s) Décideur(s) Analyste(s) de données Administrateur de Bases de données Prise de décisions Présentation des connaissances Techniques de visualisation Data Mining Découverte de connaissances Exploration de données (OLAP, ...) (Statistiques, Requêtes, ...) Data Warehouses Sources de données (Papier, Fichiers, Fournisseurs d’information, SGBD, …) Objectifs Objectifs ƒ Développer des techniques et systèmes efficaces et extensibles pour l’exploration de : ƒ BD larges et multi-dimensionnelles ƒ Données distribuées ƒ Faciliter l’utilisation des systèmes de DM ƒ Limiter l’intervention de l’utilisateur ƒ Représentation simple de la connaissance ƒ Visualisation sous forme exploitable Communautés impliquées Communautés impliquées ƒ Intelligence artificielle et apprentissage ƒ Bases de données ƒ Analyse de données (statistiques) ƒ Visualisation ƒ Recherche opérationnelle et optimisation ƒ Informatique parallèle et distribuée ƒ Etc. Data Mining et Statistiques Data Mining et Statistiques ƒ Data mining : Exploratoire, Data-driven modeling ƒ Statistiques : Confirmatoire, User-driven modeling ƒ Distribution d ’une seule variable : moyenne, médiane, variance, écart-type, … ƒ Explorer les relation entre variables : coefficient de corrélation, … ƒ Découverte de la cause des relations entre de nombreuses variables est assez complexe. ƒ test du X2, ... ƒ Réseaux bayésiens (probabilités conditionnelles) Découverte de modèles fonctionnels ƒ Méthodes de régression : ƒ régression linéaire : Y = aX+ b (a, b : valeurs réelles) ƒ Rapide et efficace (valeurs réelles) ƒ Insuffisante pour l ’analyse d’espace multidimentionnel Nombre de petits commerçants Nombre de grandes surfaces * * * ** * * Découverte de modèles fonctionnels ƒ Kernel regression : découvrir graphiquement la fonction à utiliser, peut être une courbe ƒ Techniques statistiques inadéquates : nombre de facteurs important, modèles non linéaires. Nombre de petits commerçants * * * * * * * Nombre de grandes surfaces Domaines d’application Domaines d’application Marketing BDD Marketing Data Warehousing KDD & Data Mining ƒ ƒ Prise de décision basée Prise de décision basée sur de nouvelles sur de nouvelles connaissances connaissances ƒ ƒ Ex., impact sur le Ex., impact sur le marketing marketing ƒ ƒ Le rôle et l’importance du Le rôle et l’importance du KDD et DM est de plus en KDD et DM est de plus en plus important plus important ƒ ƒ Mais le DM n’est pas Mais le DM n’est pas seulement dans le seulement dans le marketing... marketing... Domaines d’application Domaines d’application ƒ Marketing direct : population à cibler (âge, sexe, profession, habitation, région, …) pour un publipostage. ƒ Gestion et analyse des marchés : Ex. Grande distribution : profils des consommateurs, modèle d ’achat, effet des périodes de solde ou de publicité, « panier de la ménagère » ƒ Détection de fraudes : Télécommunications, ... ƒ Gestion de stocks : quand commander un produit, quelle quantité demander, … ƒ Analyse financière : maximiser l ’investissement de portefeuilles d ’actions. Domaines d’application Domaines d’application ƒ Gestion et analyse de risque : Assurances, Banques (crédit accordé ou non) ƒ Compagnies aériennes ƒ Bioinformatique et Génome : ADN mining, … ƒ Médecine et pharmacie : ƒ Diagnostic : découvrir d ’après les symptomes du patient sa maladie ƒ Choix du médicament le plus approprié pour guérir une maladie donné ƒ Web mining, text mining, etc. Exemple 1 - Marketing Exemple 1 - Marketing ƒ ƒ Vous êtes gestionnaire Vous êtes gestionnaire marketing d’un marketing d’un opérateur opérateur de de télécommunications télécommunications mobiles : mobiles : ƒ Les clients recoivent un téléphone gratuit (valeur 150€) avec un contrat d’un an ; vous payer une commission de vente de 250€ par contrat ƒ Problème : Taux de renouvellement (à la fin du contrat) est de 25% ƒ Donner un nouveau téléphone à toute personne ayant expirer son contrat coûte cher. ƒ Faire revenir un client après avoir quitter est difficile et coûteux. Exemple 1 - Marketing Exemple 1 - Marketing ƒ ƒ Trois mois avant Trois mois avant l’expiration du contrat l’expiration du contrat, , prédire prédire les clients qui les clients qui vont vont quitter : quitter : ƒ Si vous voulez les garder, offrir un nouveau téléphone. Yippee! Je reste ! Yippee! Je reste ! Exemple 2 - Assurances Exemple 2 - Assurances ƒ ƒ Vous êtes Vous êtes un agent un agent d’assurance d’assurance et et vous vous devez définir devez définir un un paiement mensuel adapté paiement mensuel adapté à un à un jeune jeune de 18 de 18 ans ans qui a qui a acheté une acheté une Ferrari. Ferrari. ƒ ƒ Qu’est ce qu’il faut Qu’est ce qu’il faut faire faire ? ? Oh, oui! J’aime ma Ferrari! Oh, oui! J’aime ma Ferrari! Exemple 2 - Assurances Exemple 2 - Assurances ƒ ƒ Analyser Analyser les les données données de de tous tous les les clients de la clients de la compagnie compagnie. . ƒ ƒ La La probabilité uploads/Industriel/dm-cours.pdf

  • 32
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager