Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Clustering Travail de session Mémoire Le clustering de données Par Nicolas Sola Mathieu Schmitt CRésumé Le travail du clustering consiste à regrouper les données en classe nous obtenons par ce biais une forte similarité intra-classe et une faible similari

Travail de session Mémoire Le clustering de données Par Nicolas Sola Mathieu Schmitt CRésumé Le travail du clustering consiste à regrouper les données en classe nous obtenons par ce biais une forte similarité intra-classe et une faible similarité inter-classe Un nombre conséquent d ? algorithmes nous sont présentés avec leurs avantages mais aussi leurs inconvénients De ce fait la présence d ? un utilisateur expert capable de jugement objectif est fortement recommandée pour le choix des dimensions signi ?catives et l ? analyse des résultats D ? une manière schématique nous catégorisons les algorithmes de clustering autour de plusieurs méthodes hiérarchique par partition basée sur la densité et sur les grilles Les algorithmes sont entre autres usités pour pallier à des problématiques récurrentes telles que le traitement des données bruitées ou la gestion des objets à haute dimension Nous ne méprenons pas sur l ? importance de ces données bruitées qui peuvent en e ?et compromettre signi ?cativement la qualité des clusters Elles in uent directement sur les performances et le fonctionnement des algorithmes qui plus est sur la précision des clusters créés La haute dimensionnalité des données dimensions enlève toute utilité aux mesures de distance et apportent aux objets une relative équidistance les uns par rapport aux autres Nous adoptons la méthode du clustering par sous-espace comme solution à la problématique rencontrée Ce genre de clustering se divise autour ?? De méthodes de recherche ascendante qui utilisent celles basées sur la densité les grilles statiques ou adaptatives ?? De méthodes itératives de recherche descendante qui a ?ectent des coe ?cients de pondération aux dimensions Mots-clés Clustering de données réduction du bruit haute-dimensionnalité des données clustering hiérarchique clustering par partition clustering basé sur la densité clustering basé sur les grilles CIntroduction Mise en contexte Clustering apprentissage non supervisé ou regroupement automatique sont des expressions similaires auxquelles nous devons nous familiariser elles convergent toutes dans la même direction et font référence à des méthodes qui se singularisent par un regroupement de données issues elles-mêmes d ? un ensemble de données en groupes homogènes inconnus initialement en fonction de leur similarité Les techniques de clustering voient leur intérêt se décupler très rapidement Leurs applications progressives sont très porteuses et se retrouvent aujourd ? hui en nombre incalculable dans maints domaines Nous pouvons citer par exemple l ? analyse de données économiques qui permet de segmenter un marché ou pro ?ler des clients la classi ?cation et catégorisation de documents sur le Web la reconnaissance de formes et le traitement d ? images Posons-nous à présent la question pertinente suivante et tentons d ? y répondre quelles sont les raisons pour lesquelles ces techniques novatrices ont fait leur apparition La réponse que nous apportons fait preuve de bon sens Depuis l ? apparition de l ? informatique nous sommes confrontés à une croissance e ?rénée de la quantité de données stockées dans le monde entier Ces données se retrouvent sous formes diverses et variées et constituent un gigantesque vivier o? l ? Homme