Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Prédire
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Prédire les valeurs d’une variable continue Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.fr Tableau de données et Statut des variables C ig a re tte T A R (m g ) N IC O T IN E (m g W E IG H T (g ) C O (m g ) A lp in e 1 4 .1 0 .8 6 0 .9 8 5 3 1 3 .6 B e n s o n & H e d g e s 1 6 1 .0 6 1 .0 9 3 8 1 6 .6 C a m e lL ig h ts 8 0 .6 7 0 .9 2 8 1 0 .2 C a rlto n 4 .1 0 .4 0 .9 4 6 2 5 .4 C h e s te rfie ld 1 5 1 .0 4 0 .8 8 8 5 1 5 G o ld e n L ig h ts 8 .8 0 .7 6 1 .0 2 6 7 9 K e n t 1 2 .4 0 .9 5 0 .9 2 2 5 1 2 .3 K o o l 1 6 .6 1 .1 2 0 .9 3 7 2 1 6 .3 L & M 1 4 .9 1 .0 2 0 .8 8 5 8 1 5 .4 L a rk L ig h ts 1 3 .7 1 .0 1 0 .9 6 4 3 1 3 M a rlb o ro 1 5 .1 0 .9 0 .9 3 1 6 1 4 .4 M e rit 7 .8 0 .5 7 0 .9 7 0 5 1 0 M u ltiF ilte r 1 1 .4 0 .7 8 1 .1 2 4 1 0 .2 N e w p o rtL ig h ts 9 0 .7 4 0 .8 5 1 7 9 .5 N o w 1 0 .1 3 0 .7 8 5 1 1 .5 O ld G o ld 1 7 1 .2 6 0 .9 1 8 6 1 8 .5 P a llM a llL ig h t 1 2 .8 1 .0 8 1 .0 3 9 5 1 2 .6 R a le ig h 1 5 .8 0 .9 6 0 .9 5 7 3 1 7 .5 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2 R a le ig h 1 5 .8 0 .9 6 0 .9 5 7 3 1 7 .5 S a le m U ltra 4 .5 0 .4 2 0 .9 1 0 6 4 .9 T a re yto n 1 4 .5 1 .0 1 1 .0 0 7 1 5 .9 T ru e L ig h t 7 .3 0 .6 1 0 .9 8 0 6 8 .5 V ic e ro yR ic h L ig h t 8 .6 0 .6 9 0 .9 6 9 3 1 0 .6 V irg in ia S lim s 1 5 .2 1 .0 2 0 .9 4 9 6 1 3 .9 W in s to n L ig h ts 1 2 0 .8 2 1 .1 1 8 4 1 4 .9 Variable à prédire Attribut classe Variable endogène Quantitative Variables prédictives Descripteurs Variables exogènes Quantitative ou qualitative Identifiant (Pas utilisé pour les calculs, mais peut être utilisé pour les commentaires : points atypiques, etc.) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 Régression linéaire multiple • Se restreindre à une famille de fonction de prédiction linéaire • Et à des exogènes continues (éventuellement des qualitatives recodées) n i x a x a x a a y i p i p i i i , , 1 ; , 2 , 2 1 , 1 0 K L = + + + + + = ε Le terme aléatoire ε cristallise toutes les « insuffisances » du modèle : le modèle n ’est qu’une caricature de la réalité, la spécification (linéaire notamment) n ’est pas toujours rigoureusement exacte Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 notamment) n ’est pas toujours rigoureusement exacte les variables qui ne sont pas prises en compte dans le modèle les fluctuations liées à l ’échantillonnage (si on change d ’échantillon, on peut obtenir un résultat différent) ε quantifie les écarts entre les valeurs réellement observées et les valeurs prédites par le modèle ) , , , ( 1 0 p a a a K Sont les paramètres/coefficients du modèle que l’on veut estimer à l’aide des données Lecture des coefficients j j a x y = ∂ ∂ Le coefficient se lit comme une « propension marginale » Toutes choses égales par ailleurs c.-à-d. l’impact de xj sur y ne tient pas compte de l’influence des autres L’effet des variables est additif c.-à-d. les autres variables étant constantes, si Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5 constantes, si Si on veut analyser les interactions, il faut donc construire des variables synthétiques ex. ) ( 1 1 ' ' j j j j a a y x et x + = ∆ ⇒ = ∆ = ∆ i i i i i i x x a x a x a a y ε + + + + = ) * ( 2 1 3 2 2 1 1 0 Ex. Impact de « fumer » ET « boire » sur l’hypertension Régression linéaire multiple Démarche de modélisation • estimer les paramètres « a » en exploitant les données • évaluer la précision de ces estimateurs (biais, variance, convergence) • mesurer le pouvoir explicatif global du modèle • évaluer l'influence des variables dans le modèle • globalement (toutes les p variables) La démarche de modélisation est toujours la même Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 6 • globalement (toutes les p variables) • individuellement (chaque variable) • un bloc de variables (q variables, q ≤ p) [c’est une généralisation] • sélectionner les variables les plus « pertinentes » • évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction) • détecter les observations qui peuvent fausser ou influencer exagérément les résultats (points atypiques). Régression linéaire multiple Écriture matricielle Pour une meilleure concision … + = n i p np n ip ij i p n i a a a x x x x x x x y y y ε ε ε1 1 0 1 1 1 11 1 1 1 1 1 1 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 7 ) 1 , ( ) 1 , 1 ( ) 1 , ( ) 1 , ( n p p n n + + × + = Bien noter les dimensions des matrices ε + = Xa Y N.B. Noter la colonne représentant la constante La méthode des moindres carrés i x i y i y ˆ i e Valeur observée Valeur fournie par le modèle Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 8 i x La méthode des moindres carrés cherche la meilleure estimation des paramètres « a » en minimisant la quantité a X Y e avec e S i i i ˆ 2 − = = ∑ « e », l ’erreur observée (le résidu) est une évaluation du terme d’erreur ε Les hypothèses de la méthode des MCO « â » deviennent les EMCO (estimateurs des moindres carrés ordinaires) Hypothèses probabilistes (hypothèses stochastiques) • les X sont observés sans erreur (non aléatoires) • E(ε) = 0, en moyenne le modèle est bien spécifié • E(ε2)= σ2 ε la variance de l ’erreur est constante (homoscédasticité) • E(εi, εj)=0, les erreurs sont non-corrélées (non-autocorrélation des erreurs) • Cov(ε,x)=0, l ’erreur est indépendante des variables explicatives • ε ≡Normale(0, σε ) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9 • ε ≡Normale(0, σε ) Hypothèses structurelles • Rang(X ’X) = p+1 c.-à-d. (X ’X)-1 existe, ou encore det(X’X) ≠ 0 • (X ’X)/n tend vers une matrice finie non singulière quand n+oo • n > p+1, le nombre d ’observations est supérieur au nombre de paramètres du modèle (variables explicatives + constante) Ces hypothèses pèsent sur les propriétés des estimateurs et sur les lois de distribution EMCO (Estimateur des moindres carrés ordinaires) Principe de calcul - Estimateur Pour trouver les paramètres « a » qui minimise S : ∑ ∑ + + + − = = = i p p i i i i i x a x a a y S 2 uploads/Science et Technologie/ regression-lineaire-multiple.pdf
Documents similaires
-
15
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 23, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 0.5408MB