Notes de cours Économétrie 1 Shuyan LIU Shuyan.Liu@univ-paris1.fr http ://samm.
Notes de cours Économétrie 1 Shuyan LIU Shuyan.Liu@univ-paris1.fr http ://samm.univ-paris1.fr/Shuyan-LIU-Enseignement Année 2013-2014 Chapitre 1 Introduction Qu’est-ce que l’économétrie ? À quoi sert - elle ? – validation de la théorie économique – investigation a. mise en évidence de relation entre les variables b. inférence statistique c. prévision Ce cours consiste en trois chapitres a. Régression linéaire simple (données quantitatives) b. Régression linéaire multiple (données quantitatives) c. Analyse de la variance (données qualitatives) Quelques exemples Ces donnés sont disponibles dans le logiciel R sous les noms : sunspot.year, AirPas- sengers et chickwts. 1. Les taches solaires : superposition de deux phénomènes périodiques > plot(sunspot.year) > points(sunspot.year) 1 2 Introduction Time sunspot.year 1700 1750 1800 1850 1900 1950 0 50 100 150 2. Le nombre de passagers : augmentation de moyenne + dispersion croissante > x11() > par(mfrow=c(2,1)) > plot(AirPassengers,type="l") > plot(AirPassengers[1:50],type="l") Time AirPassengers 1950 1952 1954 1956 1958 1960 100 300 500 0 10 20 30 40 50 100 160 220 Index AirPassengers[1:50] – Vocabulaire : tendance, composante périodique/saisonnalité/composante saisonnière – Modèle classique : Xt = mt + st + εt, t = 1, . . . , n. 3 – L’extraction de tendance Xt = mt + εt, I E εt = 0, t = 1, . . . , n. (modèle sans saisonnalité) Méthode 1 : moyennes mobiles (MA) Pour q entier non-négatif, on calcule la composante de tendance mt en utilisant l’esti- mateur suivant ˆ mt = 1 2q + 1 q X j=−q Xt−j, q + 1 ≤t ≤n −q, où Xt = X1 pour t < 1 et Xt = Xn pour t > n. Méthode 2 : lissages exponentiels (MA avec la pondération décroissante exponentiel- lement) Pour α ∈[0, 1] fixé, on calcule la composante de tendance mt en utilisant l’estimateur suivant ˆ mt = αXt + (1 −α) ˆ mt−1, t = 2, . . . , n, ˆ m1 = X1. La solution de ces équations récurrentes est ˆ mt = t−2 X j=0 α(1 −α)jXt−j + (1 −α)t−1X1, t ≥2. Méthode 3 : moindre carré On estime la composante de tendance mt par minimiser la distance entre les observa- tions et la tendance, c.a.d. ˆ mt = argmin n X t=1 (Xt −mt)2. – La désaisonnalisation Xt = st + εt, I E εt = 0, st+d = st et d X j=1 sj = 0, t = 1, . . . , n. (modèle sans tendance) Méthode 1 : Supposons que d = 2q. On estime la saisonnalité sk en utilisant la moyenne des observations {Xk+jd, q < k + jd ≤n −q}, k = 1, . . . , d. Méthode 2 : On peut obtenir une série temporelle désaisonnalisée en prenant Yt = Xt −Xt−d, d < t < n. > plot(decompose(AirPassengers)) 4 Introduction 100 300 500 observed 150 250 350 450 trend -40 0 40 seasonal -40 0 20 60 1950 1952 1954 1956 1958 1960 random Time Decomposition of additive time series 3. Masses de poulets en fonction de leur alimentation : analyse de la variance à un facteur On veut tester s’il y a un effet du type de nourriture. Pour savoir quels sont les types de nourriture qui diffèrent des autres, on utilise la fonction TukeyHSD (Tukey’s Honest Significant Difference). Les résultats sont montrés dans les figures et le tableau suivant. Tous les intervalles de confiance qui ne recoupent pas 0 révèlent des différences significatives d’effets. Nourriture Traduction casein caséine horsebean fève linseed graine de lin meatmeal farine animale soybean soja sunflower tournesol > plot(weight~feed,data=chickwts) > aov.chickwts<-aov(weight~feed,data=chickwts) > hsd.chickwts<-TukeyHSD(aov.chickwts) > plot(hsd.chickwts) > hsd.chickwts 5 casein horsebean linseed meatmeal soybean sunflower 100 150 200 250 300 350 400 feed weight -200 -100 0 100 200 sunflower-soybean soybean-horsebean linseed-casein 95% family-wise confidence level Differences in mean levels of feed Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = weight ~ feed, data = chickwts) $feed diff lwr upr p adj horsebean-casein -163.383333 -232.346876 -94.41979 0.0000000 linseed-casein -104.833333 -170.587491 -39.07918 0.0002100 meatmeal-casein -46.674242 -113.906207 20.55772 0.3324584 soybean-casein -77.154762 -140.517054 -13.79247 0.0083653 sunflower-casein 5.333333 -60.420825 71.08749 0.9998902 linseed-horsebean 58.550000 -10.413543 127.51354 0.1413329 meatmeal-horsebean 116.709091 46.335105 187.08308 0.0001062 soybean-horsebean 86.228571 19.541684 152.91546 0.0042167 sunflower-horsebean 168.716667 99.753124 237.68021 0.0000000 meatmeal-linseed 58.159091 -9.072873 125.39106 0.1276965 soybean-linseed 27.678571 -35.683721 91.04086 0.7932853 sunflower-linseed 110.166667 44.412509 175.92082 0.0000884 soybean-meatmeal -30.480519 -95.375109 34.41407 0.7391356 sunflower-meatmeal 52.007576 -15.224388 119.23954 0.2206962 sunflower-soybean 82.488095 19.125803 145.85039 0.0038845 6 Introduction Chapitre 2 Régression linéaire simple 2.1 Les principaux modèles utilisés en économétrie Linéaire : y = ax + b Log-linéaire : y = bxa Exponentiel : y = exp(ax + b) Logarithmique : y = a ln x + b Hyperbolique : y = a x−x0 + y0 Logistique : y = ymin + ymax−ymin 1+exp(ax+b) Parabolique : y = ax2 + bx + c Linéarisation Log-linéaire : y = bxa —> ln y = a ln x + ln b Exponentiel : y = exp(ax + b) —> ln y = ax + b Logarithmique : y = a ln x + b Hyperbolique : y = a x−x0 + y0 Parabolique : y = ax2 + bx + c —> y = a(x −x0)2 + y0 Logistique : y = ymin + ymax−ymin 1+exp(ax+b) —> ln ymax−y y−ymin = ax + b 2.2 Un jeu de données On considère un jeu de données (Y, X) où Y représente la tension artérielle et X re- présente l’âge. 7 8 Régression linéaire simple Y 114 124 143 158 166 X 35 45 55 65 75 40 50 60 70 120 130 140 150 160 age tension Commentaires du graphique : – La tension artérielle augmente avec l’âge. – Les points du graphe sont presque alignés. 2.2.1 Modèle et estimation Nous proposons le modèle suivant : Yi = µ + βXi + εi, i = 1, . . . , n. Postulats du modèle : pour tous i = 1, . . . , n – I E (εi) = 0 – Var (εi) = σ2 – εi sont i.i.d. de loi gaussienne. – Xi sont déterministes. La méthode des moindres carrés ordinaires (MMCO) consiste à déterminer les valeurs µ et β en minimisant la somme des carrés résiduelle (SCR). SCR (µ, β) := n X i=1 (Yi −(µ + βXi))2. 2.2 Un jeu de données 9 Les solutions de MMCO sont les suivantes. ˆ β = Pn i=1(Yi −¯ Y )(Xi −¯ X) Pn i=1(Xi −¯ X)2 , ˆ µ = ¯ Y −ˆ β ¯ X, où ¯ X := 1 n Pn i=1 Xi et ¯ Y := 1 n Pn i=1 Yi. Quelques notations : – ˆ Yi = ˆ µ + ˆ βXi – ˆ εi = Yi −ˆ Yi – ˆ σ2 = 1 n−2 Pn i=1(Yi −ˆ Yi)2 Remarque 1. Le coefficient n −2 de ˆ σ2 peut s’expliquer par la règle : le nombre de données (ici n) moins le nombre de paramètres du modèle (ici 2). Cette renormalisation a pour but d’obtenir un estimateur sans biais de σ2, c.a.d. I E (ˆ σ2) = σ2. En effet, Pn i=1(Yi − ˆ Yi)2 est une variable aléatoire de loi σ2χ2(n −2). Propriétés des estimateurs : – I E (ˆ µ) = µ et I E (ˆ β) = β – Var (ˆ β) = σ2 Pn i=1(Xi−¯ X)2 et Var (ˆ µ) = σ2 Pn i=1 X2 i n Pn i=1(Xi−¯ X)2 – Cov (ˆ µ, ˆ β) = − σ2 ¯ X Pn i=1(Xi−¯ X)2 Sortie d’exemple traité par R Call: lm(formula = tension ~ age, data = Tens) Residuals: 1 2 3 4 5 0.6 -3.2 2.0 3.2 -2.6 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 65.1000 5.8284 11.17 0.001538 ** age 1.3800 0.1026 13.45 0.000889 *** --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 3.246 on 3 degrees of freedom Multiple R-squared: 0.9837,Adjusted R-squared: 0.9782 F-statistic: 180.8 on 1 and 3 DF, p-value: 0.0008894 10 Régression linéaire simple Exercice 1. Réécrivez le modèle en utilisant les résultats de régression. 2.2.2 Analyse de la variance Table d’analyse de la variance Source Somme des carrés Degré de liberté Carré moyen expliquée Pn i=1(ˆ Yi −¯ Y )2 := SCE 1 SCE résiduelle Pn i=1(Yi −ˆ Yi)2 := SCR n −2 SCR /(n −2) totale Pn i=1(Yi −¯ Y )2 := SCT n −1 SCT /(n −1) Équation d’analyse de variance : SCT = SCE + SCR Coefficient de détermination : R2 = SCE SCT Remarque 2. Ce coefficient est toujours compris entre 0 et 1. Il est un instrument de mesure de la qualité de l’ajustement, par le modèle linéaire et des données observées. Plus il est proche de 1, mieux cela vaut. Sortie d’exemple traité par R Analysis of Variance Table Response: tension Df Sum Sq Mean Sq F value Pr(>F) age 1 1904.4 1904.40 180.8 0.0008894 *** Residuals 3 31.6 10.53 --- Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 uploads/Litterature/ notes-econometrie-pdf.pdf
Documents similaires
-
16
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 28, 2021
- Catégorie Literature / Litté...
- Langue French
- Taille du fichier 1.1211MB