Fouille de données / Data Mining Julien JACQUES Université Lumière Lyon 2 1 / 7

Fouille de données / Data Mining Julien JACQUES Université Lumière Lyon 2 1 / 79 La fouille de données : qu’est-ce que c’est ? Fouille de données / data mining Ensemble d’approches statistiques permettant d’extraire de l’information de grands jeux de données dans une perspectives d’aide à la décision. 1P . Besse et al., Data Mining et Statistique, Journal de la Société Française de Statistique, 142[1], 2001. 2 / 79 La fouille de données : qu’est-ce que c’est ? Fouille de données / data mining Ensemble d’approches statistiques permettant d’extraire de l’information de grands jeux de données dans une perspectives d’aide à la décision. Les étapes du data mining 1 1. Nettoyage des données (erreurs, données manquantes, outliers) 2. Transformation éventuelle des données (normalisation, linéarisation...) 3. Explicitation de l’objectif de l’analyse en terme statistique (régression, classification, clustering...) 4. Choix de la méthode et mise en oeuvre informatique ( ...) 5. Test (validation de la qualité des résultats) 6. Exploitation 1P . Besse et al., Data Mining et Statistique, Journal de la Société Française de Statistique, 142[1], 2001. 2 / 79 La fouille de données : quelques références 3 / 79 La fouille de données : quelques références ■http://eric.univ-lyon2.fr/∼ricco/data-mining/ ■http://data.mining.free.fr ■http://eric.univ-lyon2.fr/∼jjacques/ 4 / 79 La fouille de données : à quoi cela sert ? ■publicité ciblée sur internet ■identification des prospects les plus susceptibles de devenir clients ■reconnaissance faciale dans une image ■calcul de la rentabilité des clients ■évaluer le risque d’un client (credit scoring) ■détection de fraudes bancaires ■analyse automatique de contenus textuels (text mining) ■reconnaissance de la parole ■calcul de score de réachat ■prévision de consommation d’électricité ■prévision de traffic routier ■tester l’efficacité d’un traitement médical ■... 5 / 79 La fouille de données : panorama des méthodes fouille de données méthodes prédictives méthodes descriptives 6 / 79 La fouille de données : panorama des méthodes méthodes prédictives classification supervisée prédire Y quali. régression prédire Y quanti. méthodes descriptives détections de liens recherche d’associations analyse factorielle ACP , AFC, ACM clustering 7 / 79 La fouille de données : panorama des méthodes Ce qui n’est pas abordé dans ce cours : ■analyse factorielle (ACP , AFC, ACM...) projection et visualisation de données dans un espace de dimension faible ■régression prédire une variable quantitative ■détections de liens (règles d’association) prédire une variable quantitative 8 / 79 La fouille de données : panorama des méthodes Ce qui est abordé dans ce cours : ■clustering (classification automatique, classification non supervisée, segmentation, typologie...) : regrouper des individus qui se ressemblent en classes représentatives ■classification supervisée (discrimination, analyse discriminante, scoring) : classer des individus dans des classes définies a priori 9 / 79 La fouille de données : panorama des méthodes Ce qui est abordé dans ce cours : ■clustering (classification automatique, classification non supervisée, segmentation, typologie...) : regrouper des individus qui se ressemblent en classes représentatives ■classification supervisée (discrimination, analyse discriminante, scoring) : classer des individus dans des classes définies a priori Notations : ■les individus (observations) sont décrits par un ensemble de p variables aléatoires explicatives X = (X1, . . . , Xp) ∈E (E = Rp, ...) ■Xi = (Xi1, . . . , Xip) sont les variables explicatives pour l’individu i (1 ≤i ≤n) ■Zi ∈{1, . . . , K} est le numéro de la classe de l’individu i 9 / 79 Classification non supervisée vs supervisée Classification non supervisée ■Zi inconnue (aucune signification a priori) ■objectif : à partir de l’observation de X1, . . . , Xn, prédire Z1, . . . , Zn ■les classes sont ensuite interprétées dans le but de leur donner une signification concrète Classification supervisée ■Zi connue (signification connue a priori) ■objectif : à partir de l’observation de (X1, Z1), . . . , (Xn, Zn) construire une règle de classement r : r : X − →r(X) = Z ■utiliser cette règle de classement pour classer de nouveaux individus de classes inconnues 10 / 79 Applications Classification non supervisée ■analyse exploratoire : donner une représentation simplifiée des données pour mieux les comprendre ■exemple : typologie clients en marketing (Gestion de la relation clients / CRM - Customer Relationship Management) Classification supervisée ■analyse prédictive : prédire une variable (Z) qualitative à partir de variables explicatives (X) ■exemples : prédire si un prospect va acheter le produit qu’on lui propose, prédire la probabilité qu’un patient soit atteint d’une certaine maladie... 11 / 79 Les différentes méthodes abordées dans ce cours Classification non supervisée ■méthodes géométriques □centres mobiles (kmeans), □Classification Ascendante Hiérarchique (CAH) ■méthode probabiliste □modèles de mélanges (algorithme EM) Classification supervisée ■méthode générative : on estime la loi de (X, Z) □analyse discriminante paramétrique ■méthodes prédictives : on estime la loi de (Z|X) □régression logistique □k plus proche voisins □arbre de classification (méthode CART) 12 / 79 Plan Classification non supervisée Généralités Méthode des centres mobiles (kmeans) Classification Ascendante Hiérarchique Modèles de mélanges Classification supervisée Généralités Analyse discriminante probabiliste Méthode des K plus proches voisins Régression logistique Arbre de classification 13 / 79 Plan Classification non supervisée Généralités Méthode des centres mobiles (kmeans) Classification Ascendante Hiérarchique Modèles de mélanges Classification supervisée Généralités Analyse discriminante probabiliste Méthode des K plus proches voisins Régression logistique Arbre de classification 14 / 79 Plan Classification non supervisée Généralités Méthode des centres mobiles (kmeans) Classification Ascendante Hiérarchique Modèles de mélanges Classification supervisée Généralités Analyse discriminante probabiliste Méthode des K plus proches voisins Régression logistique Arbre de classification 15 / 79 Notions de distances et dissimilarités Soient Xi et Xj deux observations de E. On appelle distance toute fonction d : E × E →R+ telle que 1. d(Xi, Xj) ≥0 2. d(Xi, Xj) = d(Xj, Xi) 3. d(Xi, Xj) = 0 ⇔Xj = Xi 4. d(Xi, Xj) ≤d(Xi, Xk) + d(Xk, Xj) pour tout Xk ∈E Lorsque seulement 1. à 3. sont vérifiées, on parle de dissimilarité. 16 / 79 Distances et dissimilarités usuelles Distances pour données quantitatives E = Rp d2(Xi, Xj) = (Xi −Xj)tM(Xi −Xj) ■distance euclidienne (M = I) : d(Xi, Xj) = Pp ℓ=1(Xiℓ−Xjℓ)21/2 ■distance de Mahalanobis (M = V−1 avec V la matrice de covariance) ■... Distances pour données binaires E = {0, 1}p ■dissimilarité de Jaccard : d(Xi, Xj) = 1 − a a+b+c où □a = #{ℓ, 1 ≤ℓ≤p : Xiℓ= Xjℓ} □b = #{ℓ, 1 ≤ℓ≤p : Xiℓ= 1 et Xjℓ= 0} □c = #{ℓ, 1 ≤ℓ≤p : Xiℓ= 0 et Xjℓ= 1} ■... 17 / 79 Comparaison de partitions On utilise souvent l’indice de Rand pour comparer deux partitions Z1 = (Z11, . . . , Z1n) et Z2 = (Z21, . . . , Z2n) : R = a + d a + b + c + d = a + d 2 n  ∈[0, 1] où, parmi les 2 n  paires d’individus possibles : ■a : nombre de paires dans une même classe dans Z1 et dans Z2 ■b : nombre de paires dans une même classe dans Z1 mais séparées dans Z2 ■c : nombre de paires séparées dans Z1 mais dans une même classe dans Z2 ■d : nombre de paires dans séparées dans Z1 et dans Z2 18 / 79 Exercice Deux méthodes de clustering ont conduit aux 2 partitions suivantes : ■Z1 = {1, 1, 2, 2, 2} ■Z2 = {1, 2, 2, 1, 2} Calculer l’indice de Rand de ces deux partitions. 19 / 79 Exercice Deux méthodes de clustering ont conduit aux 2 partitions suivantes : ■Z1 = {1, 1, 2, 2, 2} ■Z2 = {1, 2, 2, 1, 2} Calculer l’indice de Rand de ces deux partitions. Correction : a = 1, d = 3, 2 5  = 10 et R = 0.4 19 / 79 Plan Classification non supervisée Généralités Méthode des centres mobiles (kmeans) Classification Ascendante Hiérarchique Modèles de mélanges Classification supervisée Généralités Analyse discriminante probabiliste Méthode des K plus proches voisins Régression logistique Arbre de classification 20 / 79 Algorithme des kmeans kmeans{stats} On se place dans E = Rp muni de la distance euclidienne. Algorithm 1 kmeans 1: init. : tirages au hasard de K centres µk parmi les n observations 2: while partition non stable do 3: affecter chaque observation à la classe dont le centre est le plus proche 4: recalculer les centres (moyennes) des classes 5: end while 21 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Illustration de l’algorithme des kmeans 22 / 79 Algorithme des kmeans kmeans{stats} Propriétés ■l’algorithme des kmeans minimise l’inertie intra-classe W(Z) : T = B(Z) + W(Z) □T = n X i=1 d2(Xi, µ) : inertie totale du nuage de point (µ est le centre global) □B(Z) uploads/Management/fdd-cours-pdf.pdf

  • 58
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 06, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.5676MB