M2 Pro Ingénierie Mathématique Année 2011-2012 Université d'Angers, Université
M2 Pro Ingénierie Mathématique Année 2011-2012 Université d'Angers, Université de Nantes TD de régression linéaire simple Exercice 1 : EMV et EMC On dispose d'un échantillon de n couples (xi, yi), i = 1, . . . , n satisfaisant yi = β0 + β1xi + ϵi, où l'on suppose que les ϵi, i = 1 . . . n sont des variables aléatoires i.i.d. de loi normale N(0, σ2), σ2 inconnue. Le but de cet exercice est de comparer la méthode des moindres carrés et la méthode du maximum de vraisemblance dans ce modèle. 1. Calculer la vraisemblance de l'échantillon. 2. Calculer les estimateurs de β0, β1 et σ2 par la méthode du maximum de vraisemblance. 3. Calculer les estimateurs de β0, β1 et σ2 à l'aide de la méthode des moindres carrés. 4. Comparer les résultats obtenus. Exercice 2 : Modèle de croissance humaine Un père a deux garçons, et s'inquiète de la croissance de son cadet qu'il trouve petit. Il décide de faire un modèle familial à partir des mesures de taille en fonction de l'age de l'aîné : âge 3 4 5 6 7 8 9 10 11 12 taille 96 104.8 110.3 115.3 121.9 127.4 130.8 136 139.7 144.5 1. Représenter les données sur un graphique et justi er l'utilisation d'un modèle de régression linéaire simple. Discuter les hypothèses nécessaires. 2. Estimer les coe cients de la régression et tracez sur le graphique la droite de régression estimée. 3. Calculer le R2 et représenter les résidus. La régression semble-t'elle valable ? Pour information, les données proviennent des études auxologique du Docteur Sempé dont une partie a été publiée par Abidi et al (1996). Ces données mesurées sur des milliers d'enfants (de 1 mois à 19 ans) ont permis d'établir un modèle de croissance humaine qui fournit les prédictions du carnet de santé. Il s'écrit de la manière suivante : Y = θ1 1 − 1 1 + ((X + θ8)/θ2)θ3 + ((X + θ8)/θ4)θ5 + ((x + θ8)/θ6)θ7 , où θ1 représente la taille adulte, θ8 le temps de grossesse, et les couples (θ2, θ3), (θ4, θ5) et (θ6, θ7) permettent de modéliser respectivement la phase de croissance initiale (juste après la naissance), la phase de croissance centrale (pré-adolescente) et la phase nale. Exercice 3 : Hauteur des arbres Nous souhaitons exprimer la hauteur Y d'un arbre en fonction de son diamètre X à 1m30 du sol. Pour cela, nous avons mesuré 20 couples diamètre-hauteur et les résultats ci-dessous sont disponibles : ¯ x = 34.9; 1 20 20 X i=1 (xi −¯ x)2 = 28.29; ¯ y = 18.34 1 20 20 X i=1 (yi −¯ y)2 = 2.85; 1 20 20 X i=1 (xi −¯ x)(yi −¯ y) = 6.26. 1 1. On note ˆ Y = ˆ β0 + ˆ β1X l'estimation de la droite de régression. Donner l'expression de ˆ β0 et ˆ β1 en fonction des statistiques élémentaires ci-dessus. Calculer ˆ β0 et ˆ β1. 2. Donner une mesure de qualité d'ajustement des données au modèle. Exprimer cette mesure à l'aide des statistiques élémentaires. Calculer et commenter. 3. Testez H0 : ”βj = 0” contre H1 : ”βj ̸= 0” pour j = 0, 1. Commentez. Exercice 4 : Natalité en Amérique La tableau suivant contient la liste de 14 pays d'Amérique du Nord et d'Amérique Centrale, dont la population dépassait le million d'habitants en 1985. Pour chaque pays, on mesure le taux de natalité yi (nombre de naissances annuel pour 1000 habitants) ainsi que le taux d'urbanisation xi (pourcentage de la population vivant dans des villes de plus de 100000 habitants). On fait l'hypothèse d'un modèle de regréssion linéaire simple du type yi = β0 + β1xi + ϵi, c'est-à-dire que le taux de natalité dépend linéairement du taux d'urbanisation. Observations pays taux d'urbanisation taux de natalité 1 Canada 55.0 16.2 2 Costa-Rica 27.3 30.5 3 Cuba 33.3 16.9 4 USA 56.5 16.0 5 El Salvador 11.5 40.2 6 Guatemala 14.2 38.4 7 Haïti 13.9 41.3 8 Honduras 19.0 43.9 9 Jamaïque 33.1 28.3 10 Mexique 43.2 33.9 11 Nicaragua 28.5 44.2 12 Trinidade/Tobago 6.8 24.6 13 Panama 37.7 28.0 14 Rep. Dominicaine 37.1 33.1 1. Représenter graphiquement les données. 2. Estimer les paramètres β0 et β1 du modèle et tracer la droite de régression correspondante. 3. Calculer la somme des résidus. 4. Calculer SCtot, SCreg et SCres puis R2. 5. Tester l'hypothèse H0 : ”β1 = 0” contre H1 : ”β1 ̸= 0” et donner un intervalle de con ance à 95% pour β1. 6. Tester l'hypothèse H0 : ”β0 = 0” contre H1 : ”β0 ̸= 0” et donner un intervalle de con ance à 95% pour β0. 7. Représenter graphiquement un intervalle de con ance de 95% autour de la droite de régression à l'aide d'une grille de 10 points. 2 M2 Pro Ingénierie Mathématique Année 2011-2012 Université d'Angers, Université de Nantes TP de régression linéaire simple Exercice 1 : concentration en ozone Nous allons traiter les 50 données journalières de la concentration en ozone en fonction de la température. Les données se trouvent dans le chier "ozone.txt". La variable à expliquer est la concentration en ozone, notée "maxO3", et la variable explicative est la température à midi, notée "T12". 1. Commencer par représenter les données à l'aide des commandes suivantes : >ozone<-read.table("ozone.txt",header=T) >plot(maxO3~T12,data=ozone) Une regression linéaire simple semble-t'elle justi ée graphiquement ? 2. Eectuer la régression linéaire à l'aide de la commande >reg<-lm(maxO3~T12,data=ozone) et consulter les résultats à l'aide de la commande >resume<-summary(reg) Que représente les coe cients de la matrice coe cients ? 3. Tracer l'estimation de la droite de régression, ainsi qu'un intervalle de con ance à 95% de celle-ci grâce aux commandes suivantes : >plot(maxO3~T12,data=ozone) >T12=seq(min(ozone[,"T12"]),max(ozone[,"T12"]),length=100) >grille<-data.frame(T12) >ICdte<-predict(reg,new=grille,interval="confidence",level=0.95) >matlines(grille$T12,cbind(ICdte),lty=c(1,2,2),col=1) Ce graphique permet de véri er visuellement l'ajustement des données au modèle de régres- sion proposé. Que remarquez-vous ? Représentez le vecteur des résidus grâce aux commandes : >res<-rstudent(reg) >plot(res,pch=15,ylab=Résidus,ylim=c(-3,3)) >abline(h=c(-2,0,2),lty=c(2,1,2)). 4. On s'intéresse à présent à la qualité de prévision du modèle. Pour cela, on va tracer un intervalle de con ance des prévisions de la manière suivante : >plot(maxO3~T12,data=ozone) >T12=seq(min(ozone[,"T12"]),max(ozone[,"T12"]),length=100) >grille<-data.frame(T12) >ICprev<-predict(reg,new=grille,interval="pred",level=0.95) >matlines(grille$T12,cbind(ICprev),lty=c(1,2,2),col=1) 5. On va maintenant calculer les intervalles de con ances des coe cients β0 et β1 du modèle de régression. Pour cela, on utilise la fonction coef() qui permet d'extraire les estimateurs de β0 et β1 et leurs écarts types empiriques. >seuil<-qt(0.975,df=reg$df.res) >beta0min<-coef(resume)[1,1]-seuil*coef(resume)[1,2] >beta0max<-coef(resume)[1,1]+seuil*coef(resume)[1,2] >beta1min<-coef(resume)[2,1]-seuil*coef(resume)[2,2] >beta1max<-coef(resume)[2,1]+seuil*coef(resume)[2,2] 3 Que remarquez-vous sur l'intervalle de con ance de β0 ? Comment l'expliquez-vous ? 6. Pour être plus précis et tenir compte de la dépendance entre β0 et β1, on peut aussi construire une région de con ance pour ˆ β. Les commandes suivantes permettent de visualiser la dié- rence entre le rectangle de con ance, simple juxtaposition des deux intervalles de con ance et la région de con ance. Elles nécessitent l'installation du package ellipse. >library(ellipse) >plot(ellipse(reg,level=0.95),type="l",xlab="beta0",ylab="beta1") >points(coef(reg)[1],coef(reg)[2],pch=3) >lines(c(beta0min,beta0min,beta0max,beta0max,beta0min),c(beta1min,beta1max,beta1max, beta1min,beta1min),lty=2) >plot(ellipse(reg,level=0.95),type="l",xlab="beta0",ylab="beta1") >points(coef(reg)[1],coef(reg)[2],pch=3) >lines(c(beta0min,beta0min,beta0max,beta0max,beta0min),c(beta1min,beta1max,beta1max, beta1min,beta1min),lty=2) Exercice 2 : Hauteur des eucalyptus On veut expliquer la hauteur des eucalyptus en fonction de leur circonférence à partir d'une régression linéaire simple. On dispose de 1737 couples circonférence-hauteur qui se trouvent dans le chier "eucalyptus.txt". 1. Extraire et représenter les données dans le plan. 2. Eectuer la régression et commenter les résultats obtenus. 3. Tracer l'estimation de la droite de régression et un intervalle de con ance à 95% de celle-ci. Que déduisez-vous de la qualité de l'estimation ? 4. Calculer les intervalles de con ance des coe cients β0 et β1 du modèle de régression et tracer le rectangle de con ance associé. Faites de même pour la région de con ance du couple β = (β0, β1). Commenter. 5. On veut à présent prédire la taille d'une nouvelle série d'eucalyptus de circonférence 50, 100, 200 puis 500. Donner les estimateurs de la taille de chacun d'entre eux et les intervalles de con ances associés. 6. Que se passe-t'il pour les faibles valeurs de circonférences ? Proposer une amélioration pos- sible du modèle pour tenir compte de ce phénomène. Cette amélioration sera traitée dans le prochain TP de régression multiple. Exercice 3 : Modèle quadratique Au vu de la représentation de la concentration d'ozone en fonction de la température à midi de l'Exercice 1, nous souhaitons modéliser l'ozone par la température au carré. 1. Ecrire le modèle et estimer les paramètres. 2. Comparer ce modèle au modèle de régression linéaire. 4 uploads/Geographie/ td1-pdf.pdf
Documents similaires










-
30
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 16, 2022
- Catégorie Geography / Geogra...
- Langue French
- Taille du fichier 0.1012MB