Clustering tchi drive CHAPITRE LA CLASSIFICATION AUTOMATIQUE I INTRODUCTION La classi ?cation automatique appelée clustering en anglais est une méthode mathématique d ? analyse de données Pour faciliter l ? étude d ? une population d ? e ?ectif important
CHAPITRE LA CLASSIFICATION AUTOMATIQUE I INTRODUCTION La classi ?cation automatique appelée clustering en anglais est une méthode mathématique d ? analyse de données Pour faciliter l ? étude d ? une population d ? e ?ectif important animaux plantes malades gènes on regroupe les individus qui la forment en plusieurs classes de telle sorte que les individus d ? une même classe soient les plus semblables possibles et que les classes soient les plus distinctes possibles les unes des autres Regrouper des éléments entre eux facilite mieux l ? interprétation d ? une grande quantité de données Ainsi les objectifs de la classi ?cation sont de regrouper les individus décrits par un ensemble de variables ou regrouper les variables observées sur des individus et d'interpréter ces regroupements par une synthèse des résultats L'intérêt de regrouper les individus est ici de les classer en conservant leur caractère multidimensionnel et non pas seulement à partir d'une seule variable Si les variables sont nombreuses il peut être intéressant de les regrouper a ?n de réduire leur nombre pour une interprétation plus facile II STRUCTURES DE DONNEES Les objets échantillons mesures modèles événements sont représentés comme des points vecteurs dans un espace multidimensionnel o? chaque dimension représente un attribut distinct variable mesure décrivant l'objet Ainsi un ensemble d'objets est représenté comme une matrice mxn avec m lignes une pour chaque objet et n colonnes une pour chaque attribut Cette matrice est appelée matrice de données ou jeu de données La ?gure ci-dessous fournit un exemple concret d ? une matrice de données ?? ??x x f ?? ?? ?? xi xif ?? ?? ?? ? xn xnf x p ? ?? ?? xip ?? ?? ?? xnp ?? ?? ?? Matrice de données III MATRICE DE PROXIMITE Plusieurs algorithmes de clustering utilisent la matrice de données originale et beaucoup d ? autres emploient une matrice de similarité ou une matrice de dissimilarité Pour la convenance les deux matrices sont généralement mentionnées comme une matrice de proximité P Une matrice de proximité P est une matrice mxm contenant toutes les dissimilarités ou les similarités entre les objets considérés Si pi et pj sont le ième et le jème objets respectivement alors l' entrée à la ième ligne et la jème colonne de la matrice de proximité est la similarité ou la dissimilarité entre pi et pj ?? ? ?? ??d ?? ?? ??d d ?? ?? ?? ?? ?? ?? ? d n d n ?? ?? Matrice de proximité CCHAPITRE LA CLASSIFICATION AUTOMATIQUE IV DISTANCE ET SIMILARITE En classi ?cation que les données se présentent initialement sous forme d'un tableau individus-variables ou non toute l'information utile est contenue dans un tableau nxn donnant les dissemblances entre les n individus à classer On appelle distance sur un ensemble M toute application d M ? ? telle que pour tout x y ?? M on a d x y si et seulement si x y pour tout x y ?? M on a d x y
Documents similaires










-
37
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Fev 18, 2022
- Catégorie Creative Arts / Ar...
- Langue French
- Taille du fichier 56.5kB