Page | 1 ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN INSTITUT NATIONAL DE STATIS
Page | 1 ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN INSTITUT NATIONAL DE STATISTIQUE ET D’ECONOMIE APPLIQUEE2014201 ANALYSE DE LA REGRESSION ENSEIGNANT : Mustapha BERROUYNE INGENIEUR EN CHEF GP STATISTICIEN DEMOGRAPHE CHERCHEUR SUPPORT DE COURS Aspects théorique et pratique I N S E A , A V E N U E A L L A L A L F A S S I B . P : 6 2 1 5 , R A B A T I N S T I T U T S Page | 2 Page | 3 TABLE DES MATIERES CHAPITRE 1. ANALYSE DE LA REGRESSION SIMPLE........................................................................................9 SECTION 1 : ASPECTS THEORIQUES.......................................................................................................................9 1. NOTATIONS ET DEFINITIONS ...........................................................................................................................................9 1.1. La corrélation..........................................................................................................................................................9 Le coefficient de corrélation linéaire .............................................................................................................................10 Interprétation géométrique du coefficient de la corrélation linéaire ..........................................................................11 1.2. La régression linéaire simple................................................................................................................................12 2. ESTIMATION DES PARAMETRES DU MODELE DE LA REGRESSION LINEAIRE SIMPLE...................................................13 2.1. Comment trouver la droite qui passe "au plus près" de tous les points ?....................................................13 2.2. La méthode des Moindres Carrés Ordinaires (MCO)...................................................................................13 2.3. Estimateurs des Moindres Carrés Ordinaires...............................................................................................14 2.4. Calcul des estimateursࢼ࢚ࢋࢼ...................................................................................................................14 2.5. Quelques remarques ......................................................................................................................................15 2.6. Exemple..........................................................................................................................................................15 3. HYPOTHESES DE LA RLS ..............................................................................................................................................16 3.1. « Vraie » droite de régression et droite estimée par la régression................................................................17 3.2. A propos des erreurs ......................................................................................................................................18 3.3. Glissement de la méthode des MCO à la régression .....................................................................................18 3.4. Hypothèses du modèle de la régression linéaire simple................................................................................19 4. DECOMPOSITION DE LA VARIANCE ET COEFFICIENT DE DETERMINATION.................................................................19 4.1. Ce que le modèle explique et ce qu’il n’explique pas ...................................................................................19 Degrés de liberté..............................................................................................................................................................20 4.2. Coefficient de détermination..........................................................................................................................21 4.3. Exemple : Régression de la taille en fonction du poids ................................................................................21 5. PROPRIETES DES ESTIMATEURS DES MCO ..................................................................................................................22 5.1. Biais des estimateurs des MCO......................................................................................................................22 L’estimateur b...............................................................................................................................................................22 L’estimateur b...............................................................................................................................................................23 5.2. Variance des estimateurs des MCO...............................................................................................................23 Variance de la pente........................................................................................................................................................23 Variance de la constante.................................................................................................................................................23 Covariance des paramètres ............................................................................................................................................23 5.3. Convergence des estimateurs des MCO.........................................................................................................24 5.4. Remarques sur la précision des estimateurs .................................................................................................24 5.5. Théorème de Gauss-Markov..........................................................................................................................25 Démonstration du théorème...........................................................................................................................................25 6. INFERENCE STATISTIQUE ..............................................................................................................................................25 6.1. Evaluation globale de la régression ..............................................................................................................25 Test de significativité globale (tableau d’analyse de la variance)................................................................................25 6.2. Exemple : le poids et la taille.........................................................................................................................26 6.3. La variance de l’erreur : estimation et distribution ......................................................................................27 Estimation de la variance de l’erreur ............................................................................................................................28 Théorème. (Estimateur non biaisé de se2).................................................................................................................................28 Distribution de la variance de l’erreur..........................................................................................................................28 6.4. Distribution des coefficients estimés .............................................................................................................29 Distribution de l’estimateur des MCO relatif à la pente..............................................................................................29 Distribution de l’estimateur des MCO relatif à la constante.......................................................................................29 6.5. Tests d’hypothèses sur les paramètres...........................................................................................................30 Test de significativité de la pente ...................................................................................................................................30 Test de significativité de la constante.............................................................................................................................31 Exemple : Test de significativité des paramètres des variables taille et poids............................................................31 Intervalle de confiance des paramètres .........................................................................................................................33 Exemple de la relation entre la taille et le poids......................................................................................................................33 6.6. Intervalle de confiance de la droite de régression.........................................................................................33 7. PREVISION ET INTERVALLE DE PREVISION .............................................................................................................36 7.1. Prévision ponctuelle.......................................................................................................................................36 7.2. Prévision par intervalle..................................................................................................................................36 Variance de l’erreur de prévision ..................................................................................................................................37 Quelques remarques .......................................................................................................................................................37 Page | 4 Loi de distribution de l’erreur de prévision..................................................................................................................37 Intervalle de prévision ....................................................................................................................................................38 8. ANALYSE DES RESIDUS ............................................................................................................................................38 8.1. Problème de normalité...................................................................................................................................39 8.1.1. Examen par les tests statistiques...............................................................................................................................39 8.1.2. Examen par les graphiques .......................................................................................................................................42 Q-Q Plot ou droite de Henry ..........................................................................................................................................42 Résidus en fonction de l’endogène Y..............................................................................................................................43 Résidus en fonction de l’exogène X................................................................................................................................43 8.2. Problème de l’autocorrélation.......................................................................................................................43 8.2.1. Détection des autocorrélations..................................................................................................................................44 8.2.2. Test de Durbin-Watson .............................................................................................................................................44 8.3. Problème de l’hétéroscédasticité....................................................................................................................45 8.3.1. Analyse par les tests...................................................................................................................................................45 8.3.2. Analyse par les graphiques........................................................................................................................................47 SECTION 2 : ASPECTS PRATIQUES........................................................................................................................47 1. REGRESSION LINEAIRE SIMPLE AVEC SPSS ...........................................................................................................48 1.1. La corrélation.................................................................................................................................................48 1.1.1. Nuage de points ..........................................................................................................................................................48 1.1.2. Coefficient de corrélation linéaire ............................................................................................................................49 1.2. Estimation des paramètres.............................................................................................................................50 En utilisant SPSS (mode syntaxe) ..................................................................................................................................50 En utilisant SPSS (mode interactif) ...............................................................................................................................51 1.3. Décomposition de la variance et coefficient de détermination .....................................................................52 1.4. Test de significativité globale (Evaluation globale de la régression) ...........................................................52 1.5. Tests d’hypothèses sur les paramètres...........................................................................................................52 2. REGRESSION LINEAIRE SIMPLE AVEC LA FONCTION DROITEREG D’EXCEL...................................................52 3. REGRESSION LINEAIRE SIMPLE AVEC LE LOGICIEL R............................................................................................54 3.1. La corrélation.................................................................................................................................................54 3.1.1. Nuage de points ..........................................................................................................................................................54 3.1.2. Coefficient de corrélation linéaire ............................................................................................................................54 3.2. La régression linéaire simple.........................................................................................................................55 3.2.1. Estimation des paramètres........................................................................................................................................55 3.2.2. Tests d’hypothèses sur les paramètres .....................................................................................................................55 3.2.3. Tableau de l’analyse de la variance..........................................................................................................................55 3.2.4. Test de significativité globale (Evaluation globale de la régression)......................................................................55 CHAPITRE 2. ANALYSE DE LA REGRESSION MULTIPLE................................................................................56 SECTION 1 : ASPECTS THEORIQUES.....................................................................................................................56 1. INTRODUCTION..................................................................................................................................................56 2. NOTATION MATRICIELLE...............................................................................................................................57 3. HYPOTHESES.......................................................................................................................................................57 3.1. HYPOTHESES STOCHASTIQUES (de nature probabiliste) .....................................................................57 3.2. Les hypothèses structurelles ..........................................................................................................................58 4. ESTIMATION DES PARAMETRES...................................................................................................................58 4.1. Minimisation de la somme des carrés des erreurs ........................................................................................58 4.2. Ecriture matricielle ........................................................................................................................................58 4.3. Exemple : consommation des véhicules ........................................................................................................59 4.4. Quelques remarques sur les matrices............................................................................................................60 5. INTERPRETATION DES COEFFICIENTS.....................................................................................................................61 5.1. Coefficient brut ..............................................................................................................................................61 5.2. Coefficients partiels........................................................................................................................................61 5.3. Coefficients standardisés ...............................................................................................................................62 6. PROPRIETES DES ESTIMATEURS ..............................................................................................................................64 6.1. Biais................................................................................................................................................................64 6.2. Variance-convergence ...................................................................................................................................65 7. ESTIMATION DES VARIANCES..................................................................................................................................66 7.1. Estimation de la variance de l’erreur............................................................................................................66 7.2. Estimation de la matrice de variance-covariance des coefficients ...............................................................66 7.3. Détails des calculs pour les données "Consommation des véhicules".........................................................66 8. TESTS DE SIGNIFICATIVITE .....................................................................................................................................68 8.1. Tableau d'analyse de variance et coefficient de détermination....................................................................68 Page | 5 8.1.1. R² corrigé ou ajusté....................................................................................................................................................68 8.1.2. Coefficient de corrélation linéaire multiple .............................................................................................................70 8.1.3. Application aux données "Consommation des véhicules"......................................................................................70 8.1.4. Test de signification globale de la régression...........................................................................................................71 8.2. Test de signification d'un coefficient.............................................................................................................72 8.2.1. Définition du test........................................................................................................................................................72 8.2.2. Application sur la consommation des véhicules ......................................................................................................72 9. INFERENCE SUR LES COEFFICIENTS ........................................................................................................................73 9.1. Intervalle de confiance...................................................................................................................................73 10. PREDICTION PONCTUELLE ET PAR INTERVALLE ....................................................................................................74 10.1. Prédiction ponctuelle .....................................................................................................................................74 10.2. Prédiction par intervalle ................................................................................................................................74 10.3. Application sur le modèle « consommation des véhicules ».........................................................................75 11. REGRESSIONS AVEC VARIABLES AUXILIAIRES BINAIRES ET FACTICES..................................................................76 12. POINTS ABERRANTS ET POINTS INFLUENTS ............................................................................................................76 12.1. Détection.........................................................................................................................................................76 12.1.1. Détection univariée ....................................................................................................................................................77 12.1.2. Détection multivariée sur les exogènes : Force du levier ........................................................................................78 12.1.3. Résidus studentisés.....................................................................................................................................................80 12.1.4. Résidus studentisés supprimés..................................................................................................................................82 12.1.5. Autres indicateurs usuels...........................................................................................................................................84 12.2. Traitement ......................................................................................................................................................89 12.3. … en utilisant le logiciel R ............................................................................................................................90 13. COLINEARITE ET SELECTION DES VARIABLES........................................................................................................91 13.1. Définition, conséquences et illustration de la colinéarité.............................................................................91 13.2. Techniques de détection.................................................................................................................................92 13.2.1. Test de Klein...............................................................................................................................................................92 13.2.2. Facteur d'inflation de la variance (VIF), tolérance et indice de condition ............................................................93 13.2.3. La tolérance................................................................................................................................................................93 13.2.4. Indice de condition K.................................................................................................................................................93 13.2.5. Application sur la consommation des véhicules ......................................................................................................94 13.2.6. Test de Farrar & Glauber (multicolinéarité)...........................................................................................................95 13.2.7. Cohérence des signes..................................................................................................................................................95 13.3. Sélection des variables et choix de modèle....................................................................................................96 13.3.1. Sélection par optimisation.........................................................................................................................................96 13.3.2. Techniques basées sur le F partiel de Fisher..........................................................................................................101 13.3.3. Régression « Stagewise » .........................................................................................................................................108 13.3.4. Coefficient de corrélation partielle et sélection de variables ................................................................................110 14. LES REGRESSIONS PARTIELLES.............................................................................................................................114 14.1. Principe des régressions partielles...............................................................................................................114 14.2. Application sur la consommation des véhicules .........................................................................................115 15. REGRESSIONS CROISEES........................................................................................................................................116 15.1. Mise en œuvre ..............................................................................................................................................116 15.2. Régressions croisées sur les données « consommation des véhicules ».....................................................118 SECTION 2 : ASPECTS PRATIQUES......................................................................................................................118 1. EN UTILISANT LE LOGICIEL SPSS.........................................................................................................................118 2. EN UTILISANT LA FONCTION « DROITEREG » DU LOGICIEL EXCEL..............................................................128 ANNEXES ......................................................................................................................................................................131 Page | 6 Page | 7 Généralités Les sciences exactes sont fondées sur la notion de relations répétables, qui peut s’énoncer ainsi : dans les mêmes conditions, les mêmes causes produisent les mêmes effets. Notant alors x la mesure des causes, et y celle des effets, la liaison entre y et x s’écrit suivant la relation fonctionnelle y = f(x) : à une valeur donnée de x correspond une valeur bien déterminée de y. Or, pour de nombreux phénomènes, une étude exhaustive de tous les facteurs est impossible, à cause de leur grand nombre ou de leur complexité. Il en résulte que la reproductibilité des conditions, d’une expérience à une autre, ne peut être garantie. Partant de cette constatation, la statistique va permettre d’étendre la notion de relation fonctionnelle répétable, à celle de corrélation où la relation entre x et y est entachée d’une certaine dispersion due à la variabilité des conditions d’expérience : on écrira y = f (x) + , où est une variable aléatoire. Le problème est d’étudier l’influence de la variable quantitative X sur la variable quantitative Y. La première est souvent appelée variable explicative (ou encore exogène) et la seconde est appelée variable expliquée (ou encore endogène). Pour résoudre ce problème, une expérimentation doit être réalisée qui consiste à prélever un échantillon de n individus, et à mesurer sur chacun d’eux les valeurs prises par chacune des deux variables. En vue, par exemple, d’étudier l'influence du poids d’un individu sur sa taille. Il faut donc observer un échantillon de n couples d'observations (xi, yi) que l’on peut représenter sur un graphique, dans le plan R², où chaque point i, d’abscisse xi et d’ordonnée yi , correspond à un couple d’observations. Plusieurs cas peuvent se présenter. Les points s’alignent sur une courbe qui, dans l’hypothèse la plus simple est une droite. On dit que la relation entre Y et X est fonctionnelle : lorsque la valeur de X est donnée, celle de Y est déterminée sans ambiguïté. C’est le cas idéal qui, expérimentalement, n’est jamais réalisé de façon parfaite. Les uploads/Management/ cours-de-regression.pdf
Documents similaires










-
30
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 09, 2022
- Catégorie Management
- Langue French
- Taille du fichier 7.1467MB