Arbres de decision introduction
Ricco RAKOTOMALALA Ricco Rakotomalala univ-lyon fr Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC CArbres de décision ?? Apprentissage par partitionnement Objectif on veut construire des sous-groupes les plus homogènes ? du point de vue de la variable à prédire a La variable qualitative Y prend ses valeurs dans - - - - - - Gi Le sous-groupe Gi est complètement pur du point de vue de Y il ne possède que des individus portant la valeur de Y si ? ??Gi alors Y L ? idée est de trouver le plus rapidement Possible avec le moins de variables des groupes o? P Y La description des sous-groupes repose sur la fonction f et ses paramètres éventuels les variables exogènes Xi Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC CArbres de décision ?? Un exemple Numéro Infarctus Douleur Age Inanimé oui poitrine oui ? ? ? ? ? oui ailleurs oui oui poitrine non oui poitrine oui oui ailleurs non non poitrine non non ailleurs non non poitrine oui non ailleurs non non ailleurs non Tableau des fréquences absolues tous les individus sont présents poitrine Infarctus OUI Infarctus NON douleur ailleurs Y X A résoudre ? choix de la variable de segmentation ? traitement des variables continues ? règle d ? arrêt dans la construction ? décision sur une feuille Les individus qui ont une douleur dans la poitrine numéros ? ? ge inanimé oui non Premier sous-groupe complètement homogène du point de vue de la variable à prédire il est constitué exclusivement d ? individus qui ont un infarctus Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC CArbres de décision ?? Choix de la variable de segmentation On choisit la variable X telle qu ? elle est la plus liée corrélée avec Y on utilise la quantité du ? ? calculée sur le tableau de contingence croisement de Y avec Xi pour quanti ?er cette liaison xi L xi Li Y M nk l card ? ?? a Y ? Yk et Xi ? Xi l YK X arg max i K p ? Y Xi Amélioration la mesure du ? ? augmente avec n l ? e ?ectif sur le n ?ud à segmenter le nombre de lignes le nombre de colonnes Ces valeurs sont constantes dans les comparaisons deux à deux du ? ? Les variables qui ont beaucoup de modalités et ainsi induisent beaucoup de colonnes dans le tableau de contingence sont avantagés ? ? tY Xi n Y Xi K ?? Li ?? Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC le t de Tschuprow varie entre et CArbres de décision ?? Traitement des variables continues Comment est réalisé le choix du point de coupure ex d ? o? vient la valeur de découpage de l ? ? ge dans l ? arbre exemple Point de coupure borne de discrétisation il doit toujours être situé entre deux points consécutifs sur l ? axe de la variable quantitative il permet de dé
Documents similaires
-
33
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise- Détails
- Publié le Dec 27, 2022
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 38.7kB