Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Prédire

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Prédire les valeurs d’une variable continue Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.fr Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2 Cigarette TAR (mg) NICOTINE (mg WEIGHT (g) CO (mg) Alpine 14.1 0.86 0.9853 13.6 Benson&Hedges 16 1.06 1.0938 16.6 CamelLights 8 0.67 0.928 10.2 Carlton 4.1 0.4 0.9462 5.4 Chesterfield 15 1.04 0.8885 15 GoldenLights 8.8 0.76 1.0267 9 Kent 12.4 0.95 0.9225 12.3 Kool 16.6 1.12 0.9372 16.3 L&M 14.9 1.02 0.8858 15.4 LarkLights 13.7 1.01 0.9643 13 Marlboro 15.1 0.9 0.9316 14.4 Merit 7.8 0.57 0.9705 10 MultiFilter 11.4 0.78 1.124 10.2 NewportLights 9 0.74 0.8517 9.5 Now 1 0.13 0.7851 1.5 OldGold 17 1.26 0.9186 18.5 PallMallLight 12.8 1.08 1.0395 12.6 Raleigh 15.8 0.96 0.9573 17.5 SalemUltra 4.5 0.42 0.9106 4.9 Tareyton 14.5 1.01 1.007 15.9 TrueLight 7.3 0.61 0.9806 8.5 ViceroyRichLight 8.6 0.69 0.9693 10.6 VirginiaSlims 15.2 1.02 0.9496 13.9 WinstonLights 12 0.82 1.1184 14.9 Tableau de données Variables, caractères, attributs, Descripteurs, champs, etc. Individus, observations, objets, enregistrements, etc. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 Statut des variables C ig a re tte T A R (m g ) N IC O T IN E (m g W E IG H T (g ) C O (m g ) A lp in e 1 4 .1 0 .8 6 0 .9 8 5 3 1 3 .6 B e n s o n & H e d g e s 1 6 1 .0 6 1 .0 9 3 8 1 6 .6 C a m e lL ig h ts 8 0 .6 7 0 .9 2 8 1 0 .2 C a rlto n 4 .1 0 .4 0 .9 4 6 2 5 .4 C h e s te rfie ld 1 5 1 .0 4 0 .8 8 8 5 1 5 G o ld e n L ig h ts 8 .8 0 .7 6 1 .0 2 6 7 9 K e n t 1 2 .4 0 .9 5 0 .9 2 2 5 1 2 .3 K o o l 1 6 .6 1 .1 2 0 .9 3 7 2 1 6 .3 L & M 1 4 .9 1 .0 2 0 .8 8 5 8 1 5 .4 L a rk L ig h ts 1 3 .7 1 .0 1 0 .9 6 4 3 1 3 M a rlb o ro 1 5 .1 0 .9 0 .9 3 1 6 1 4 .4 M e rit 7 .8 0 .5 7 0 .9 7 0 5 1 0 M u ltiF ilte r 1 1 .4 0 .7 8 1 .1 2 4 1 0 .2 N e w p o rtL ig h ts 9 0 .7 4 0 .8 5 1 7 9 .5 N o w 1 0 .1 3 0 .7 8 5 1 1 .5 O ld G o ld 1 7 1 .2 6 0 .9 1 8 6 1 8 .5 P a llM a llL ig h t 1 2 .8 1 .0 8 1 .0 3 9 5 1 2 .6 R a le ig h 1 5 .8 0 .9 6 0 .9 5 7 3 1 7 .5 S a le m U ltra 4 .5 0 .4 2 0 .9 1 0 6 4 .9 T a re yto n 1 4 .5 1 .0 1 1 .0 0 7 1 5 .9 T ru e L ig h t 7 .3 0 .6 1 0 .9 8 0 6 8 .5 V ic e ro yR ic h L ig h t 8 .6 0 .6 9 0 .9 6 9 3 1 0 .6 V irg in ia S lim s 1 5 .2 1 .0 2 0 .9 4 9 6 1 3 .9 W in s to n L ig h ts 1 2 0 .8 2 1 .1 1 8 4 1 4 .9 Variable à prédire Attribut classe Variable endogène Quantitative Variables prédictives Descripteurs Variables exogènes Quantitative ou qualitative Identifiant (Pas utilisé pour les calculs, mais peut être utilisé pour les commentaires : points atypiques, etc.) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 Principes de la régression multiple Population Ω Ω Ω Ω    es) (quelconqu exogènes variables ve quantitati , (endogène) prédire à variable X Y Une série de variables X=(x1|…|xp) On veut construire une fonction de prédiction (explication) telle que ) , ( α X f Y = Objet de l ’étude Utiliser un échantillon Ωa (extraite de la population) pour choisir la fonction f et ses paramètres α telle que l ’on minimise la somme des carrés des erreurs Objectif de l ’apprentissage ∑ Ω − = 2 )] ˆ , ( ˆ [ α X f Y S Problèmes :  il faut choisir une famille de fonction  il faut estimer les paramètres α  on utilise un échantillon pour optimiser sur la population Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5 Régression linéaire multiple • Se restreindre à une famille de fonction de prédiction linéaire • Et à des exogènes continues (éventuellement des qualitatives recodées) n i x a x a x a a y i p i p i i i , , 1 ; , 2 , 2 1 , 1 0 K L = + + + + + = ε Le terme aléatoire ε cristallise toutes les « insuffisances » du modèle : • le modèle n ’est qu’une caricature de la réalité, la spécification (linéaire notamment) n ’est pas toujours rigoureusement exacte • les variables qui ne sont pas prises en compte dans le modèle • les fluctuations liées à l ’échantillonnage (si on change d ’échantillon, on peut obtenir un résultat différent) ε quantifie les écarts entre les valeurs réellement observées et les valeurs prédites par le modèle ) , , , ( 1 0 p a a a K Sont les paramètres du modèle que ‘l’on veut estimer à l’aide des données Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 6 Régression linéaire multiple Écriture matricielle Pour une meilleure concision … ) 1 , ( ) 1 , 1 ( ) 1 , ( ) 1 , ( n p p n n + + × + = Bien noter les dimensions des matrices ε + = Xa Y                 +                                 =                 n i p np n ip ij i p n i a a a x x x x x x x y y y ε ε ε1 1 0 1 1 1 11 1 1 1 1 1 1 N.B. Noter la colonne représentant la constante Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 7 Régression linéaire multiple Démarche de modélisation • estimer les paramètres « a » en exploitant les données • évaluer la précision de ces estimateurs • mesurer le pouvoir explicatif du modèle • évaluer l'influence des variables dans le modèle • globalement (toutes les p variables) • individuellement (chaque variable) • un bloc de variables (q variables, q < p) • sélectionner les variables les plus « pertinentes » • évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction) • détecter les observations qui peuvent influencer exagérément les résultats (points atypiques). La démarche de modélisation est toujours la même Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 8 La méthode des moindres carrés i x i y i y ˆ i e Valeur observée Valeur fournie par le modèle La méthode des moindres carrés cherche la meilleure estimation des paramètres « a » en minimisant la quantité a X Y e avec e SCR i i i ˆ 2 − = = ∑ « e », l ’erreur observée est une évaluation du terme résiduel ε Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9 Les hypothèses de la méthode des MCO « â » deviennent les EMCO (estimateurs des moindres carrés ordinaires) Hypothèses probabilistes • le modèle est linéaire en X • les X sont observés sans erreur • E(ε) = 0, en moyenne le modèle est bien spécifié • E(ε2)= σ2 ε la variance de l ’erreur est constante (hétéroscédasticité) • E(εi, εj)=0, les erreurs sont non-corrélés • Cov(ε,x)=0, l ’erreur est indépendante de la variable explicative • ε ≡Normale(0, σ2 ε ) Hypothèses structurelles • Rang(X ’X)=p+1 càd (X ’X)-1 existe • (X ’X)/n tend vers une matrice finie non singulière • n>p+1, le nombre d ’observations est supérieur au nombre de uploads/Science et Technologie/ regression-multiple.pdf

  • 35
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager