Projet Réalisé par : BENKHADDA Oumaima SNINATE Khaoula Master Statistiques et É
Projet Réalisé par : BENKHADDA Oumaima SNINATE Khaoula Master Statistiques et Économétrie 2020/2021 Table des matières Introduction 2 Chapitre I : Etude de la base de données 3 Chapitre II : Stratégie pour explorer les intéractions 6 Chapitre III : Analyse des intéractions d’ordre1 14 Intéraction entre deux variables binaires . . . . . . . . . . . . . . . . . . . . . . 14 Intéraction entre une variable binaire et variable catégorielle . . . . . . . . . . . 20 Intéraction entre une variable binaire et variable continue . . . . . . . . . . . . . 25 Intéraction entre deux variables continues . . . . . . . . . . . . . . . . . . . . . 27 Chapitre IV : Sélection des variables 29 Echantilloner : Apprentissage vs Test . . . . . . . . . . . . . . . . . . . . . . . . 30 Sélection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Sélection Forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Sélection Backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Sélection Both . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Sélection BACKWARD basée sur le test de Wald . . . . . . . . . . . . . . . . . 36 Chapitre V : Validation du modèle retenu 41 Validation du modèle retenu par sélection de Forward/Backward/Both . . . . . 41 Matrice de confusion et taux d’erreur . . . . . . . . . . . . . . . . . . . . . 43 Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Validation du modèle retenu par sélection BACKWARD basée sur le test de Wald 46 Matrice de confusion et taux d’erreur . . . . . . . . . . . . . . . . . . . . . 46 La courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 1 Introduction La régression logistique est une technique de modélisation qui est très répondue, elle est un cas particulier du modèle linéaire généralisé. Elle vise à prédire et expliquer les valeurs d’une variable à partir de variables explicatives. Nous s’intéressons ici à la régression logistique binaire. Elle consiste à considérer une variable cible binaire Y=0 ou Y= 1, et p variables explicatives. Le but de notre étude est d’appliquer une analyse des modèles logistiques binaires avec intéractions ainsi que les stratégies de la sélection des variables les plus explicatives sur un exemple pratique. Nous nous sommes basées sur le logiciel R pour nos différents traitement. • En premier lieu, nous présentons la base de données avec laquelle nous souhaitons travailler tout en décrivant les différentes variables. • En deuxième partie nous définirons la théorie des intéractions des variables et la stratégie d’exploration des intéractions. Nous évoquons les étapes de la stratégie que nous illustrerons avec l’application sur R. • Par la suite, L’analyse des intéractions d’ordre 1. Nous traiterons tous les trois cas possibles. • La quatrième partie est dédiée à la séléction des variables via les deux méthodes répandues. • Finalement, un chapitre consacré à la validation du modèle 2 Chapitre I : Etude de la base de données Notre base de données intitulée "birthwt", les données proviennent de Baystate Me- dical Center, Springfield, Massachusetts, en 1986,, ont été recueillies sur 189 femmes, dont 59 avaient des bébés de faible poids à la naissance et 130 d’entre eux avaient des bébés de poids normal à la naissance. L’insuffisance pondérale à la naissance est un résultat qui préoccupe les médecins depuis des années. Cela est dû au fait que les taux de mortalité infantile et de malformations congénitales sont très élevés pour les bébés de faible poids à la naissance. Le comportement d’une femme pendant la grossesse (y compris son régime alimentaire, ses habitudes taba- giques et ses soins prénatals) peut grandement modifier les chances de porter le bébé à terme et, par conséquent, d’accoucher d’un bébé de poids normal à la naissance. Le but de la présente étude est d’identifier les facteurs de risque associés à l’accouchement d’un bébé de faible poids à la naissance (pesant moins de 2500 grammes). En effet, La variable de réponse est binaire, faible poids à la naissance : • lowbwt = 1 si le poids à la naissance est inférieur à 2500 grammes. • lowbwt = 0 sinon. Les variables que nous utiliserons pour prédire l’insuffisance pondérale à la naissance seront l’âge de la mère, si la mère a fummé pendant la grossesse, si la mère souffrait d’hypertension, le nombre de visite chez le médecin au cours du premier trimestre, présence ou abscence d’irritabilité utérine, antécédents de travail prématuré et le poids de la mère au cours de ses dernières menstruations. 3 Le tableau ci-dessous représente la description des variables : Variable Description Coding low indicator of birth weight less than 2.5 kg 0,1 age mother’s age in years continuous variable lwt Mother’s weight at last menstrual period (pounds) continuous variable smk Smoking status during pregnancy 0,1 race Mother’s race (0=white, 1 = non-white) 0,1 ht History of Hypertension 0,1 ui Presence of uterine irritability 0,1 ftv Number of physician visits in 1st trimester 0, 1, +2 ptl number of previous premature labours 0, 1, 3 bwt birth weight in grams continuous variable Chargement des données library(MASS) summary(birthwt) ## low age lwt race ## Min. :0.0000 Min. :14.00 Min. : 80.0 Min. :1.000 ## 1st Qu.:0.0000 1st Qu.:19.00 1st Qu.:110.0 1st Qu.:1.000 ## Median :0.0000 Median :23.00 Median :121.0 Median :1.000 ## Mean :0.3122 Mean :23.24 Mean :129.8 Mean :1.847 ## 3rd Qu.:1.0000 3rd Qu.:26.00 3rd Qu.:140.0 3rd Qu.:3.000 ## Max. :1.0000 Max. :45.00 Max. :250.0 Max. :3.000 ## smoke ptl ht ui ## Min. :0.0000 Min. :0.0000 Min. :0.00000 Min. :0.0000 ## 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:0.0000 ## Median :0.0000 Median :0.0000 Median :0.00000 Median :0.0000 ## Mean :0.3915 Mean :0.1958 Mean :0.06349 Mean :0.1481 ## 3rd Qu.:1.0000 3rd Qu.:0.0000 3rd Qu.:0.00000 3rd Qu.:0.0000 ## Max. :1.0000 Max. :3.0000 Max. :1.00000 Max. :1.0000 ## ftv bwt ## Min. :0.0000 Min. : 709 ## 1st Qu.:0.0000 1st Qu.:2414 ## Median :0.0000 Median :2977 ## Mean :0.7937 Mean :2945 ## 3rd Qu.:1.0000 3rd Qu.:3487 ## Max. :6.0000 Max. :4990 4 On remarque que les variables low, race, smoke, ptl, ui et ftv ont été traitées comme une variable numérique : On rémédie à cela en les transformant en type facteur, et en même temps on a réduit la variable ptl à un indicateur binaire, la variable race est aussi réduit en (white et non white) et ftv est réduit à un facteur à trois niveaux (0,1, 2+). birthwt<- with(birthwt, { ftv <- factor(ftv) table(ftv) levels(ftv)[-(1:2)] <- "2+" ptd <- factor(ptl > 0) race<-factor(race>1) race <- factor(race, labels = c("white", "Non white")) data.frame(low = factor(low), age, lwt, race, smoke = factor(smoke), ptd, ht = factor(h ui = factor(ui), ftv)}) summary(birthwt) 5 Chapitre II : Stratégie pour explorer les intéractions Une interaction se produit si la relation entre un prédicteur, X, et la variable de résultat (réponse), Y, dépend de la valeur d’une autre variable indépendante, Z (Fisher, 1926). On dit que Z est le modérateur de l’effet de X sur Y, mais une interaction X × Z signifie également que l’effet de Z sur Y est modéré par X. Une interaction représente un effet synergique ou multiplicatif testé par l’ajout d’une variable de produit, XZ au modèle, impliquant un effet non additif qui est au-delà de l’effet des effets linéaires de X et Y entrés ensemble dans le modèle. Le coefficient de régression du terme de produit représente le degré d’interaction entre les deux variables. L’effet de X sur Y n’est pas le même pour toutes les valeurs de Z. On parle d’interaction d’ordre 1 lorsque l’on croise 2 variables ; interaction d’ordre 2 lorsque l’on croise 3 variables, etc.. Pour uploads/Finance/ benkhadda-sninate-rapport.pdf
Documents similaires







-
26
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Nov 13, 2022
- Catégorie Business / Finance
- Langue French
- Taille du fichier 0.9716MB