Fouille de données (Data Mining) Karine Zeitouni ISTY - 3ème année Université d

Fouille de données (Data Mining) Karine Zeitouni ISTY - 3ème année Université de Versailles Saint-Quentin Edition 2011-2012 Fouille de données 2 Plan Général du Cours 1. Introduction 2. Principales techniques 1. Motifs fréquents 2. Associations 3. Classification et prédiction 4. Groupage et segmentation 5. Préparation des données 6. Filtrage et validation 7. Méthodologie et Standards 3. Fouille de données complexes 1. Motifs séquentiels 2. Fouille de texte 3. Fouille de données spatiales et spatiotemporelles 4. Fouille de flots de données 4. Etude de cas K. Zeitouni I. Introduction K. Zeitouni Fouille de données 4 I. Introduction 1. Motivation : pourquoi le data mining ? 2. Métaphore 3. Définition 4. Applications 5. Fonctions du data mining 6. Lien aux autres disciplines 7. Historique 8. Marché du data mining et de la BI K. Zeitouni Fouille de données 5 1. Motivation (1)  De plus en plus de données qu’il faut « fouiller » – Accumulation de données due à la maturité des technologies de bases de données et à l’automatisation de collecte de données – Exemples de sources de données :  Celles générées par le commerce électronique : ex. Transactions  Entrepôts du Web : ex. Google  Réseaux sociaux et hébergement de documents : ex. Facebook, gmail…  Générées par des capteurs : ex. Images de télédétection  + Surveillance, Logs de tout genre, simulations, … Motivation (2)  Volumétrie des entrepôts de données © K. Zeitouni Fouille de données 6 Réf. http://www.wintercorp.com/WhitePapers Motivation (3)  Pourquoi maintenant ? – L’utilisation dans l’industrie du data mining est récente – Les données sont produites électroniquement – Le contexte est ultra-concurrentiel – Les données sont archivées – Plateformes de calculs disponibles à bas prix – Des solutions et des compétences data mining disponibles  Un nouveau marché – Nouveau concept : Information as a product – Toute société ou organisme qui collecte des données valorisables est potentiellement un broker d’information, qu’il peut vendre ou en exploiter commercialement les modèles pour des utilisations essentiellement marketing. – Ex: Mots-clés pour les moteurs de recherche. K. Zeitouni Fouille de données 7 K. Zeitouni Fouille de données 8 Trop de données... Paradoxe :  trop données mais pas assez d’informations K. Zeitouni Fouille de données 9 Difficulté d’accès à l’information…  Trop de données tue …l’information K. Zeitouni Fouille de données 10 Trop de pistes à explorer... K. Zeitouni Fouille de données 11 …pas d’accès facile à l’information Jane, we need a solution ! Oh John, the computer doesn’t provide any ! What are we going to do ? K. Zeitouni Fouille de données 12 Ce dont on a besoin…. Automatisation K. Zeitouni Fouille de données 13 Génération d’hypothèses Ce dont on a besoin…. Extraction des connaissances des bases de données K. Zeitouni Fouille de données 14 3. Qu’est ce que le Data Mining ?  Objectif : – Par analogie à la recherche des pépites d ’or dans un gisement, le data mining vise : 1. à extraire des informations cachées par analyse globale ; 2. à découvrir des modèles (“patterns”) difficiles à percevoir car :  le volume de données est très grand  le nombre de variables à considérer est important  ces “patterns” sont imprévisibles (même à titre d’hypothèse à vérifier)  Générateur valideur d’hypothèses K. Zeitouni Fouille de données 15 Définition  La fouille de données est le processus visant : – L’extraction de connaissances, non triviales, implicites, préalablement inconnues et potentiellement utiles, depuis des données stockées dans de larges bases de données.  Ce qui n’est pas de la fouille de données : – L’analyse par requêtes – Les bases de données déductives et les systèmes experts – Les méthodes d’apprentissage (IA) et l’analyse statistique sur un petit ensemble d’observations. 4. Applications par domaine K. Zeitouni Fouille de données 16 Services financiers – Attrition (churn) – Détection de fraudes – Identification opportunités de ventes Marketing – Gestion de la relation client (CRM) – Optimisation de campagnes marketing – Ventes croisées Télécommunications – Fidélisation (anti-churn) – Ventes croisées – Incidentologie Assurances, Secteur public – Indiquer les anomalies des comptes – Réduire le coût d’investissement d’activité suspecte – Détection de la fraudes Grande Distribution – Fidélisation – Ventes croisées – Analyses de panier – Détection de fraudes Sciences de la vie – Trouver les facteurs de diagnostic typiques d’une maladie – Alignement gênes & protéïnes – Identifier les capacités d’interaction de médicaments Internet – Personnalisation des pub affichées – Optimisation des sites web – Profilage et Recommendation Autre – Rech. d’info (web ou document) – Recherche par similarité (images…) – Analyse spatiale… K. Zeitouni Fouille de données 17 Exemples d’application  Gestion et analyse commerciales – Analyse clientèle ou CRM analytique (gestion de la relation client) :  Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ? – Marketing ciblé, actions commerciales, vente croisée :  Où placer ce produit dans les rayons ? Comment cibler plus précisément le mailing concernant ce produit ?  Analyse du risque – Prédiction, fidélisation des clients, contrôle qualité, compétitivité – Détection des fraudes, analyse des incidents  Autres applications – Gestion, indexation et classification de documents, du web et de la navigation sur Internet. – Moteurs de recherche intelligents. 18 Data mining pour le CRM  Mieux connaître le client → Pour mieux le servir → Pour augmenter sa satisfaction → Pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)  Data mining pour savoir :  Quel client restera fidèle et qui partira?  Quels produits proposer à quels clients?  Qu’est-ce qui détermine qu’une personne répondra à une offre donnée?  Quel est le prochain produit ou service qu’un client particulier désirera? K. Zeitouni Fouille de données K. Zeitouni Fouille de données 19 Exemple 1 – analyse commerciale  Gisement de données – Opérations de carte de crédit, de cartes de fidélité, plaintes des clients, en plus des sondages marketing (publics), Web logs  CRM – Grouper les clients par classes homogènes selon leurs propriétés : âge, situation familiale, CSP, revenu, type de résidences, types de dépenses, etc. – Profilage des clients par classification : qui achète quoi ?  Ventes croisées – Associations/corrélations entre produits vendus  Usage du web – marketing et ventes sur internet – Découverte des préférences des clients, optimisation du site, etc. K. Zeitouni Fouille de données 20 Exemple 2 : Anti-Churn  Application type dans le secteur des télécom  Bases de données des clients et des appels  Fichiers des réclamations  Qui sont les clients susceptibles de partir chez un concurrent ? K. Zeitouni Fouille de données 21 Exemple 3 – Détection de fraudes  Santé  Anomalies dans les prescriptions  Assurances – détecte les fausses déclarations d’accidents  Finance – Transactions financières suspectes  Télécommunications – Caractérisation des modèles d’appels en fonction de la destination, du moment et de la durée et détection de déviation par rapport à la normale K. Zeitouni Fouille de données 22 Exemple 4 : Application boursière  Portail boursier – conseil en achat / vente d'actions  Données de base – historique des cours – portefeuille client  Analyse du risque  Analyse technique du signal  Conseils d'achat – vente  Mise à disposition sur portail K. Zeitouni Fouille de données 23 5. Fonctions du Data Mining (1)  Caractérisation et discrimination – Généraliser, résumer, retrouver et contraster les caractéristiques des données (ou d’une partie)  Association – Association traditionnelle : PC  Pack Office [support = 1%, confiance = 75%] Diaper  Beer [support = 0.5%, confiance = 75%] – Association multi-dimensionnelle : âge(X, “20..29”) ^ revenu(X, “20..29K”)  achat(X, “PC”) [support = 2%, confiance = 60%] Corrélation ou causalité ? K. Zeitouni Fouille de données 24 Fonctions du Data Mining (2)  Classification et prédiction – Apprentissage de modèles permettant de décrire et de différencier des classes afin de classer les futures « individus » – Présentation : règles de classement (si ...alors), arbre de décision, réseaux neuronal – Ex : solvabilité des clients  Régression – Fonction mathématique y=a1*x1+a2*x2+...+an*xn + r ; r = résidu et y = variable à prédire – Ex : prédire le % de profit ou de perte des prêts d'une banque Illustration : Modèle prédictif Modèle prédictif Logiciel de FD Logiciel de FD Classes prédites Données préclassées Modèle prédictif Données à classer K. Zeitouni Fouille de données Phase d’entrainement Phase de classement 25 K. Zeitouni Fouille de données 26 Fonctions du Data Mining (3)  Classification ou segmentation non supervisée(clustering) – Découpage d’une population en sous-ensembles homogènes permettant de découvrir des classes – Son principe est de maximiser la similarité intra-classe tout en minimisant la similarité inter-classes – Ex : trouver une segmentation pertinente des clients pour guider les actions commerciales ou les affectations à des conseillers,… K. Zeitouni Fouille de données 27 Fonctions du Data Mining (4)  Analyse de déviations (bruit ou anomalies ?) – Par la non conformité au comportement général – Peut-être uploads/Finance/ i-datamining-isty.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jui 05, 2021
  • Catégorie Business / Finance
  • Langue French
  • Taille du fichier 1.8379MB