M2 Pro Ingénierie Mathématique Année 2011-2012 Université d'Angers, Université

M2 Pro Ingénierie Mathématique Année 2011-2012 Université d'Angers, Université de Nantes TD de régression linéaire multiple Exercice 1 : Notation matricielle On considère le modèle de régression linéaire simple du Chapitre 1 où l'on dispose de n obser- vations (xi, yi) véri ant yi = β0 + β1xi + ϵi, où l'on suppose que les variables ϵi, i = 1 . . . n sont centrées, de variance σ2 et non-correlées. On veut retrouver les propriétés du Chapitre 1 à l'aide des notations matricielles du Chapitre 2. 1. Ecrire le modèle sous la forme matricielle d'un modèle de régression linéaire multiple. 2. Calculer l'estimateur des moindres carrés ˆ β dans le modèle matriciel et retrouver les estima- teurs ˆ β0 et ˆ β1 du modèle de régression simple. 3. A l'aide de la formule matricielle de var(ˆ β), retrouver les variances de ˆ β0 et ˆ β1, et la covariance entre ˆ β0 et ˆ β1. De même pour les résidus ˆ ϵ et les valeurs estimées ˆ Y . 4. On suppose à présent que les ϵi sont i.i.d. de loi normale N(0, σ2), où σ2 est inconnue. A partir des lois des estimateurs du modèle matriciel, retrouver les intervalles de con ance de β0 et β1. 5. A partir de la région de con ance simultanée de β du modèle matriciel, retrouver l'ellipse de con ance de (β0, β1) de la régression simple. 6. On observe un nouveau point x ∈R. A partir des propriétés de ˆ Y (x) du modèle matriciel, retrouver l'intervalle de con ance de cet estimateur. Exercice 2 : Tableau ANOVA On considère le modèle de régression linéaire multiple Y = β0 + β1X1 + β2X2 + ϵ. 1. Compléter le tableau d'analyse de variance correspondant : Variance ddl SC MCE F Regression 1504.4 Residus n-3 19.6 Totale n-1 1680.8 2. Tester l'hypothèse nulle H0 : ”β1 = β2 = 0” au niveau 95%. 3. Quel est le R2 du modèle. Proposer une interprétation géométrique du résultat. 4. Donner une estimation de σ2, la variance de ϵ. 1 Exercice 3 : Production industrielle On étudie l'in uence des heures de travail et du capital utilisé sur la production industrielle. Pour cela, on dispose des observations de 9 entreprises résumées dans le tableau ci-dessous : Obs Travail (heures) Capital (machines/heures) Production (100 tonnes) 1 1100 300 60 2 1200 400 120 3 1430 420 190 4 1500 400 250 5 1520 510 300 6 1620 590 360 7 1800 600 380 8 1820 630 430 9 1800 610 440 On suppose que la production est expliquée par un modèle de régression linéaire multiple avec deux variables explicatives, le capital et le travail. 1. Ecrire le modèle sous forme matricielle. 2. Estimer le vecteur β puis donner l'équation de l'hyperplan des moindres carrés. Pour cela, on donne (X′X)−1 =   6.304777 −0.007800 0.011620 −0.007800 0.000015 −0.000031 0.011620 −0.000031 0.000072   3. Calculer les estimations de σ2 et V (ˆ β). 4. Calculer les intervalles de con ance à 95% pour βj, j = 0, 1, 2. 5. Calculer les intervalles de con ance simultanés pour βj, j = 0, 1, 2 au niveau de con ance au moins 95%, par la méthode de Bonferroni et la méthode de Scheé. 6. Donner l'expression de la région de con ance de β et calculer les régions de con ances des couples (βi, βj), i ̸= j. 7. Tester l'hypothèse nulle H0 : ”βj = 0” contre l'alternative H1 : ”βj ̸= 0” pour j = 0, 1, 2. 8. Construire le tableau d'analyse de variance et réaliser le test de Fisher global d'hypothèse nulle H0 : ”β1 = β2 = 0” au risque α = 5%. Conclure. 2 Exercice 4 : Attaques cardiaques Les données que nous étudions présentent le taux de décès par attaque cardiaque chez les hommes de 55 à 59 ans dans diérents pays industrialisés. Les variables sont Y = 100 × log(nbre de décès par crise cardiaque pour 100000 hommes)−2), X1 = 1000×téléphones par habitants, X2 =calories grasses en pourcentage du total des calories et X3 =calories provenant de protéines animales en pourcentage du total des calories. Pays X1 X2 X3 Y Australie 124 33 8 81 Autriche 49 31 6 55 Canada 181 38 8 80 Ceylan 4 17 2 24 Chili 22 20 4 78 Danemark 152 39 6 52 Finlande 75 30 7 88 France 54 29 7 45 Allemagne 43 35 6 50 Irlande 41 31 5 69 Israël 17 23 4 66 Italie 22 21 3 45 Japon 16 8 3 24 Mexique 10 23 3 43 Pays-Bas 63 37 6 38 Nouvelle-Zélande 170 40 8 72 Norvège 15 38 6 41 Portugal 15 25 4 38 Suède 221 39 7 52 Suisse 171 33 7 52 Grande-Bretagne 97 38 6 66 Etats-Unis 254 39 8 89 1. Régresser Y sur X1 et tester la signi cation de cette régression. 2. Trouver l'équation de la régression multiple de Y sur X1 et X2. 3. Eectuer un test de Fisher global d'hypothèse nulle H0 : ”β1 = β2 = 0”. 4. Eectuer un test de Fisher partiel pour tester le modèle 1. contre le modèle Y = β0 +β1X1 + β2X2. 5. Construire la régression multiple de Y sur X1, X2 et X3. 6. Tester le modèle de régression simple 1. contre le modèle complet 5. à l'aide d'un test de Fisher partiel puis d'un test d'hypothèse linéaire H0 : ”K′β = 0” pour K′ ∈M2×4. 7. Construire un intervalle de con ance à 95% pour y(x1, x2, x3) lorsque (x1, x2, x3) = (221, 39, 7). 8. Régresser X1 sur X2 et X3. 9. Donner l'intervalle de con ance à 95% pour les coe cients de cette régression. 3 M2 Pro Ingénierie Mathématique Année 2011-2012 Université d'Angers, Université de Nantes TP de régression linéaire multiple Exercice 1 : Hauteur des eucalyptus On considère les données du chier "eucalyptus.txt" qui exprime la hauteur de 1429 eucalyptus en fonction de leur circonférence. Nous avons mentionné dans le TP précédent qu'un modèle du type ht = β1 + β2 ∗circ + β3 √ circ + ϵ améliorait la régression linéaire simple. 1. Après avoir récupéré les données, eectuer la phase d'estimation de cette régression via la formule : >regmult<-lm(ht~circ+I(sqrt(circ)),data=eucalyptus) L'opérateur I() permet de protéger la racine carrée et sera utilisé à chaque opération sur les variables. Commenter les résultats obtenus. 2. Retrouver "à la main" les résultats de la phase d'estimation, à savoir le vecteur ˆ β et l'écart type de chacune des composantes. Calculer pour cela la matrice var(ˆ β) de variance covariance du vecteur ˆ β. 3. Calculer les intervalles de con ances des paramètres βj, j = 1, 2, 3 à l'aide des commandes suivantes : >t<-qt(0.975,df=regmult$df.res) >resume<-summary(regmult) >IC<-rbind(coef(resume)[,1]-t*coef(resume)[,2],coef(resume)[,1]+t*coef(resume)[,2]) 4. Tracer l'estimation de la droite de régression, ainsi qu'un intervalle de con ance à 95% de celle-ci grâce aux commandes suivantes : >circ<-seq(min(euca[,"circ"]),max(euca[,"circ"]),length=100) >circ<-data.frame(circ) >ICdte<-predict(reg2,new=circ,interval="confidence",level=0.95) >matlines(circ$circ,cbind(ICdte),lty=c(1,2,2),col=1) Qu'en déduisez-vous quant à la qualité d'ajustement des données au modèle et à la qualité de l'estimation ? 5. On s'intéresse à présent à la qualité de prévision du modèle. Pour cela, on va tracer un intervalle de con ance des prévisions de la manière suivante : >plot(ht~circ,data=eucalyptus) >circ=seq(min(eucalyptus[,"circ"]),max(eucalyptus[,"circ"]),length=100) >grille<-data.frame(circ) >ICprev<-predict(regmult,new=grille,interval="pred",level=0.95) >matlines(grille$circ,cbind(ICprev),lty=c(1,2,2),col=1) 6. Tester la signi cativité du modèle à l'aide du test de Fisher global H0 : ”β = 0 = β1 = β2 = 0” en utilisant la formule faisant intervenir le R2. Retrouver le résultat de summary. 7. Tester l'apport de ce modèle de régression multiple par rapport au modèle de régression simple à l'aide d'un test emboîté H0 : ”ht = β0+β1∗circ” contre H1 : ”ht = β0+β1∗circ+β2 √ circ” : >regsimple<-lm(ht~circ,data=eucalyptus) >anova(regmult,regsimple) Retrouver le résultat dans la matrice coe cients. 4 Exercice 2 : Consommation de glace On étudie la consommation de glace aux Etats-Unis sur une période de 30 semaines du 18 Mars 1950 to 11 Juillet 1953. Les variables sont la période (de la semaine 1 à la semaine 30), la consommation (Consumption en pintes par habitant), le prix des glaces (Price en dollars), le salaire hebdomadaire (Income en dollars), et la température (Temp en degré fahrenheit). Les données sont disponibles dans le chier "icecream-R.dat". 1. Extraire les données et représenter la consommation en fonction des diérentes variables. Représenter l'évolution du salaire (Income) en fonction de la période. Interpréter. 2. On propose de régresser la consommation sur les trois variables Price, Income et Temp. Réaliser la phase d'estimation de cette régression et commenter les résultats obtenus. 3. Déterminer les intervalles de con ance simultanés au niveau au moins 95% pour les βj, j = 0, . . . 3 par la méthode de Bonferroni. 4. Construire les régions de con ance des couples (βi, βj) de paramètres et les comparer gra- phiquement aux intervalles de con ance grâce aux commandes suivantes : >library(ellipse) >plot(ellipse(regmult,c(i+1,j+1),level=0.95,type="l",xlab=paste("beta",i,sep=""), ylab=paste("beta",j,sep="")) >points(coef(resume)[i],coef(resume)[j],pch=3) >IC<-rbind(coef(resume)[,1]-coef(resume)[,2]*qt(0.975,regmult$df.res),coef(resume) [,1]+qt(0.975,regmult$df.res)) >lines(c(IC[1,i],IC[1,i],IC[2,i],IC[2,i],IC[1,i]),c(IC[1,j],IC[2,j],IC[2,j], IC[1,j],IC[1,j]),lty=2) Qu'apporte comme information supplémentaire ces ellipses de con ance ? 5. Tester la signi uploads/Industriel/ td2-pdf 1 .pdf

  • 33
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager