Clustering cours pdf Clustering Gilles Gasso INSA Rouen - Département ASI Laboratoire LITIS septembre Gilles Gasso Clustering CPlan Introduction Problématiques Proximité Qualité des clusters Méthodes de clustering CHA Principe Métrique Une variante du CHA

Clustering Gilles Gasso INSA Rouen - Département ASI Laboratoire LITIS septembre Gilles Gasso Clustering CPlan Introduction Problématiques Proximité Qualité des clusters Méthodes de clustering CHA Principe Métrique Une variante du CHA CHAMELEON K- means Principe Algorithme Variantes Clustering par modèle de mélange Gilles Gasso Clustering CIntroduction Introduction Objectifs D xi ?? Rd Ni ensemble de points décrits par d attributs But structuration des données en classes homogènes On cherche à regrouper les points en clusters ou classes tels que les données d ? un cluster soient les plus similaires possibles Clustering ?? apprentissage non supervisé C ? est une technique d ? exploration des données servant à résumer les informations sur les données ou à déterminer des liens entre les points Exemples de classes Gilles Gasso Clustering CIntroduction Introduction Domaines d ? application Domaine Text mining Web mining BioInformatique Marketing Segmentation d ? images Web log analysis Forme des données Textes Mails Textes et images Gènes Infos clients produits achetés Images Clickstream Clusters Textes proches Dossiers automatiques Pages web proches Gènes ressemblants Segmentation de la clientèle Zones homogènes dans l ? image Pro ?ls utilisateurs Gilles Gasso Clustering CProblématiques Problématiques Nature des observations Données binaires textuelles numériques arbres Notion de similarité ou de dissimilarité entre observations Dé ?nition d ? un cluster Evaluation de la validité d ? un cluster Nombre de clusters pouvant être identi ?és dans les données Quels algorithmes de clustering Comparaison de di ?érents résultats de clustering Gilles Gasso Clustering CProblématiques Proximité Proximité entre points Mesure de la distance D x x entre points x et x Distance de Minkoswski D x x d j x j ?? x j q q Distance Euclidienne correspond à q D x x d j x j ?? x j x ?? x t x ?? x Distance de Manhattan q D x x d j x j ?? x j Métrique liée à une matrice W dé ?nie positive D x x x ?? x W x ?? x Distance de Mahalanobis W C ?? avec C matrice de covariance des données Gilles Gasso Clustering CProblématiques Proximité Proximité entre clusters Mesure de la distance D x x entre points x et x à valeurs discrètes Utiliser une matrice de contingence A x x aij x et x F EB F F F ED F F A x x Distance de Hamming nombre de places o? les vecteurs di ?èrent dd D x x aij i j j i Exemple D x x Gilles Gasso Clustering CProblématiques Proximité Notion de proximité Mesure de la distance D C C entre classes C et C plus proche voisin Dmin C C min D xi xj xi ?? C xj ?? C diamètre maximum Dmax C C max D xi xj xi ?? C xj ?? C distance moyenne Dmoy C C xi ??C xj ??C D xi xj n n distance de Ward DWard C C n n n n D Gilles Gasso Clustering CIllustration Distance min Problématiques Proximité Diamètre maximum

  • 35
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Sep 12, 2022
  • Catégorie Marketing
  • Langue French
  • Taille du fichier 74.1kB