Universit´ e Rennes 2 Statistique M1-GEO Corrig´ e des TD Ouvrages recommand´ e

Universit´ e Rennes 2 Statistique M1-GEO Corrig´ e des TD Ouvrages recommand´ es Tous ces livres sont ` a la BU. Pour les acheter, venir au bureau A-240 ou envoyer un mail : nicolas.jegou@uhb.fr 1. Agn` es Hamon et Nicolas Jegou, ”Statistique descriptive. Cours et exercices corrig´ es.”, PUR, 2008 Pour revoir la base et s’initier ` a Rcmdr. 2. J´ erˆ ome Pag` es, “Statistiques g´ en´ erales pour utilisateurs. 1-M´ ethodologie”, PUR, 2005 Transcription du cours donn´ e ` a Agrocampus Rennes. Estimation, analyse de variance et r´ egression puis introduction aux plans d’exp´ erience et ` a l’ACP. Introduction ` a la statistique pratique, tr` es p´ edagogique et tr` es bien ´ ecrit. 3. Fran¸ cois Husson et J´ erˆ ome Pag` es, “Statistiques g´ en´ erales pour utilisateurs. 2-Exercices et corrig´ es”, PUR, 2005 Exercices et corrig´ es en lien avec l’ouvrage pr´ ec´ edent. Quelques TP sur R propos´ es. 4. P.A.Cornillon et al., “Statistiques avec R.”, PUR, 2008 Pr´ esentation du logiciel : objets, graphiques, programmation. Quinze m´ ethodes statistiques classiques pr´ esent´ ees avec R. Indispensable pour l’aspect logiciel. 5. J.Pag` es, F.Husson, S.Lˆ e, “Analyse de donn´ ees avec R”, PUR 2009. Utile pour la seconde partie du S2 et le master 2. 1 Rappels Exercice 1 : Modelisation Dans cet exercice, nous r´ ealisons certaines lignes de commandes qui ´ etaient obtenues directement avec Rcmdr au S1. Les commandes de l’exercice sont les suivantes : > #1) > a <- 1 > b <- 2 > n <- 100 > X <- seq(0,1,length=n) > eps <- rnorm(n,mean=0,sd=0.3) > Y <-a*X+b+eps > plot(X,Y) > model <- lm(Y~X) > predict(model) > lines(X,predict(model)) On obtient la figure 1. Dans cet exercice, les donn´ ees sont simul´ ees selon un mod` ele connu qui est ici lin´ eaire. En pratique, ce n’est pas le cas : on dispose de donn´ ees mais la relation entre X et Y est inconnue. Comme il n’y a que deux variables en pr´ esence, il est possible de repr´ esenter simplement les donn´ ees. On peut donc voir facilement si ajuster les points par une droite constitue une simplification en accord avec cette repr´ esentation. Si tel est le cas, on postule une relation de la forme Y = aX + b + ǫ. (1) 0.0 0.2 0.4 0.6 0.8 1.0 1.5 2.0 2.5 3.0 X Y Fig. 1 – Ajustement d’un mod` ele lin´ eaire sur des donn´ ees simul´ ees. Deux remarques importantes : – En pratique, on ne sait pas si la relation entre X et Y est bien de la forme (1) mais cette formulation pr´ esente le double avantage d’ˆ etre d’interpr´ etation simple et de conduire ` a des calculs r´ ealisables (cf. cours du S1). – De plus, les param` etres a et b du mod` ele (1) sont en pratique bien sˆ ur inconnus mais on utilise les donn´ ees pour les estimer. Nous obtenons une estimation ˆ a et ˆ b des param` etres du mod` ele ainsi : > summary(model) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.01196 0.06854 29.355 < 2e-16 *** X 0.93228 0.11842 7.873 4.73e-12 *** Exercice 2 : Calcul du R2 Pour obtenir la figure 2 nous ´ ecrivons : > plot(X,Y) > lines(X,predict(model)) > abline(h=mean(Y),col="red") La valeur de R2 donn´ ee par le logiciel est la suivante : > summary(model) Multiple R-squared: 0.3874, Adjusted R-squared: 0.3812 F-statistic: 61.98 on 1 and 98 DF, p-value: 4.731e-12 0.0 0.2 0.4 0.6 0.8 1.0 1.5 2.0 2.5 3.0 X Y Fig. 2 – Aide ` a l’interpr´ etation du R2. Nous la retrouvons en reprenant la formule R2 = Pn i=1(ˆ yi−¯ y)2 Pn i=1(yi−¯ y)2 propos´ ee : > Rdeux <- sum((predict(model)-mean(Y))^2)/sum((Y-mean(Y))^2) > Rdeux [1] 0.3874345 Au terme 1/n pr` es, le d´ enominateur de R2 correspond ` a la variance des yi. C’est donc une mesure de la variabilit´ e totale observ´ ee sur les valeurs de Y . Graphiquement, cette quantit´ e s’interpr` ete comme la somme des carr´ es des longueurs verticales entre les points du nuage et leur projet´ e sur la droite repr´ esentant la moyenne. Le num´ erateur lui repr´ esente la somme des carr´ es des distances entre les points ajust´ es par le mod` ele et cette mˆ eme droite horizontale : c’est une mesure de la variabilit´ e des donn´ ees ajust´ ees. On peut montrer que l’on a toujours R2 ∈[0, 1] ce qui autorise son interpr´ etation en termes de pourcentages. Ici, on dira que le mod` ele ajust´ e explique 38.7% de la variabilit´ e des donn´ ees. Une valeur proche de 1 signifie que num´ erateur et d´ enominateur sont proches : la variabilit´ e des valeurs ajust´ ees est donc proche de celle des donn´ ees. On conclue alors que le mod` ele explique bien la variabilit´ e des donn´ ees. A l’inverse, une valeur proche de 0 signifie que le d´ enominateur est bien plus grand que le num´ erateur. La variabilit´ e des valeurs ajust´ ees est ´ eloign´ ee de la variabilit´ e r´ eelle des donn´ ees : le mod` ele ajust´ e n’est pas satisfaisant. Remarque 1 Sans insister sur la nature du test effectu´ e, nous voyons que R rend une probabilit´ e critique concernant la statistique R2 : p-value: 4.731e-12 Cette probabilit´ e correspond au test de significativit´ e (ou de nullit´ e) de R2. Plus pr´ ecis´ ement, on teste l’hypoth` ese H0 : R2 = 0 contre H1 : R2 ̸= 0. Ainsi, on peut consid´ erer que la valeur de R2 observ´ ee (0.3874), si elle n’est pas v´ eritablement proche de 1, est quand mˆ eme tr` es significativement diff´ erente de 0. Exercice 3 : Application Le fichier comporte 13 variables. La variable ` a expliquer est maxO3 et les autres sont des variables explicatives potentielles. On dispose de 112 mesures simultan´ ees de ces 13 variables. 1. On d´ efinit un mod` ele lin´ eaire entre maxO3 et T12. Nous obtenons la figure 3 et les sorties suivantes : > RegModel.1 <- lm(maxO3~T12, data=Dataset) > summary(RegModel.1) Call: lm(formula = maxO3 ~ T12, data = Dataset) Residuals: Min 1Q Median 3Q Max -38.0789 -12.7352 0.2567 11.0029 44.6714 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -27.4196 9.0335 -3.035 0.003 ** T12 5.4687 0.4125 13.258 <2e-16 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 17.57 on 110 degrees of freedom Multiple R-squared: 0.6151,Adjusted R-squared: 0.6116 F-statistic: 175.8 on 1 and 110 DF, p-value: < 2.2e-16 Les param` etres estim´ es sont ˆ a = 5.4687 et ˆ b = −27.4196. 2. De mˆ eme avec la variable Ne12 en figure 4 et ci-dessous : > RegModel.2 <- lm(maxO3~Ne12, data=Dataset) > summary(RegModel.2) Call: lm(formula = maxO3 ~ Ne12, data = Dataset) Residuals: Min 1Q Median 3Q Max -46.020 -14.487 -5.115 12.571 66.470 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 130.0201 4.9807 26.105 < 2e-16 *** Ne12 -7.9150 0.9042 -8.753 2.77e-14 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 21.74 on 110 degrees of freedom Multiple R-squared: 0.4106,Adjusted R-squared: 0.4052 F-statistic: 76.62 on 1 and 110 DF, p-value: 2.769e-14 15 20 25 30 40 60 80 100 120 140 160 T12 maxO3 Fig. 3 – Influence de T12. Les param` etres estim´ es sont ˆ a = −7.9150 et ˆ b = 130.0201. Le signe de la pente montre que si la n´ ebulosit´ e augmente, la concentration d’ozone dans l’air a tendance ` a diminuer. 3. Nous observons que la variable T12 explique mieux la variabilit´ e de maxO3 que Ne12 puisqu’elle pr´ esente un R2 plus proche de 1 : c’est cette variable que l’on retiendrait s’il fallait choisir. Remarque 2 Nous avons test´ e la significativit´ e de la pente d’un mod` ele de r´ egression simple au premier semestre. Dans un mod` ele de r´ egression de la forme (1), cela revient ` a tester H0 : a = 0 contre H1 : a ̸= 0. Remarquons que la probabilit´ e critique associ´ ee ` a ce test est la mˆ eme que celle associ´ ee au test de significativit´ e de R2. Ainsi, en r´ egression simple, tester la nullit´ e de R2 ´ equivant ` a tester la nullit´ e de a. Exercice 4 : Analyse de variance L’importation des donn´ ees montre que la pr´ esence de 3 variables : le poids non-´ evisc´ er´ e d’un poulpe Pds.NE, son poids ´ evisc´ er´ e Pds.EV et son sexe Sexe. La variable ` a expliquer est le poids ´ evisc´ er´ e et Sexe est la variable explicative. Le r´ esum´ e des donn´ ees montre que cette derni` ere est interpr´ et´ ee, du fait de son codage, comme une variable quantitative : > summary(Dataset) Pds.NE Pds.EV Sexe Min. : uploads/S4/ corriges2-2010 1 .pdf

  • 27
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 30, 2022
  • Catégorie Law / Droit
  • Langue French
  • Taille du fichier 0.7104MB