Régression logistique ou modèle binomial Régression logistique ou modèle binomi
Régression logistique ou modèle binomial Régression logistique ou modèle binomial Résumé Introduction au modèle linéaire et modèle linéaire général : la ré- gression logistique ou modèle binomial. Retour au plan du cours. 1 Introduction Dans ce chapitre, nous définissons le contexte pratique de la régression lo- gistique qui s’intéressent plus particulièrement à la description ou l’explication d’observations constitués d’effectifs comme, par exemple, le nombre de succès d’une variable de Bernouilli lors d’une séquence d’essais. Contrairement aux modèles du chapitre précédent basés sur l’hypothèse de normalité des obser- vations, les lois concernées sont discrètes et associées à des dénombrements : binomiale, multinomiale. Néanmoins, ce modèle appartient à la famille du mo- dèle linéaire général (annexe) et partagent à ce titre beaucoup d’aspects (esti- mation par maximum de vraisemblance, tests, diagnostics) et dont la stratégie de mise en œuvre, similaire au cas gaussien, n’est pas reprise. Une première section définit quelques notions relatives à l’étude de la liaison entre variables qualitatives. Elles sont couramment utilisées dans l’interpréta- tion des modèles de régression logistique. 2 Odds et odds ratio Une variable Soit Y une variable qualitative à J modalités. On désigne la chance (ou odds 1 de voir se réaliser la jème modalité plutôt que la kème par le rapport Ωjk = πj πk 1. Il n’existe pas, même en Québécois, de traduction consensuelle de “odds” qui utilise néan- moins souvent le terme “cote”. où πj est la probabilité d’apparition de la jème modalité. Cette quantité est estimée par le rapport nj/nk des effectifs observés sur un échantillon. Lorsque la variable est binaire et suit une loi de Bernouilli de paramètre π, l’odds est le rapport π/(1 −π) qui exprime une cote ou chance de gain. Par exemple, si la probabilité d’un succès est 0.8, celle d’un échec est 0.2. L’odds du succès est 0.8/0.2=4 tandis que l’odds de l’échec est 0.2/0.8=0.25. On dit encore que la chance de succès est de 4 contre 1 tandis que celle d’échec est de 1 contre 4. Table de contingence On considère maintenant une table de contingence 2 × 2 croisant deux va- riables qualitatives binaires X1 et X2. les paramètres de la loi conjointe se mettent dans une matrice : π11 π12 π21 π22 où πij = P[{X1 = i} et {X2 = j}] est la probabilité d’occurence de chaque combinaison. – Dans la ligne 1, l’odds que la colonne 1 soit prise plutôt que la colonne 2 est : Ω1 = π11 π12 . – Dans la ligne 2, l’odds que la colonne 1 soit prise plutôt que la colonne 2 est : Ω2 = π21 π22 . On appelle odds ratio (rapport de cote) le rapport Θ = Ω1 Ω2 = π11π22 π12π21 . Ce rapport prend la valeur 1 si les variables sont indépendantes, il est supérieur à 1 si les sujets de la ligne 1 ont plus de chances de prendre la première colonne que les sujets de la ligne 2 et inférieur à 1 sinon. Exemple : supposons qu’à l’entrée dans une école d’ingénieurs, 7 garçons sur 10 sont reçus tandis que seulement 4 filles sur 10 le sont. L’odds des gar- çons est alors de 0.7/0.3=2.33 tandis que celle des filles est de 0.4/0.6=0.67. 1 Régression logistique ou modèle binomial L’odds ratio est de 2.33/0.67=3.5. La chance d’être reçu est 3.5 plus grande pour les garçons que pour les filles. L’odds ratio est également défini pour deux lignes (a, b) et deux colonnes (c, d) quelconques d’une table de contingence croisant deux variables à J et K modalités. L’odds ratio est le rapport Θabcd = Ωa Ωb = πacπbd πadπbc estimé par l’odds ratio empirique b Θabcd = nacnbd nadnbc . 3 Régression logistique 3.1 Type de données Cette section décrit la modélisation d’une variable qualitative Z à 2 moda- lités : 1 ou 0, succès ou échec, présence ou absence de maladie, panne d’un équipement, faillite d’une entreprise, bon ou mauvais client.... Les modèles de régression précédents adaptés à l’explication d’une variable quantitative ne s’appliquent plus directement car le régresseur linéaire usuel Xβ ne prend pas des valeurs simplement binaires. L’objectif est adapté à cette situation en cher- chant à expliquer les probabilités π = P(Z = 1) ou 1 −π = P(Z = 0), ou plutôt une transformation de celles-ci, par l’observation conjointe des va- riables explicatives. L’idée est en effet de faire intervenir une fonction réelle monotone g opérant de [0, 1] dans R et donc de chercher un modèle linéaire de la forme : g(πi) = x′ iβ. Il existe de nombreuses fonctions, dont le graphe présente une forme sig- moïdale et qui sont candidates pour remplir ce rôle, trois sont pratiquement disponibles dans les logiciels : probit : g est alors la fonction inverse de la fonction de répartition d’une loi normale, mais son expression n’est pas explicite. log-log avec g définie par g(π) = ln[−ln(1 −π)] mais cette fonction est dissymétrique. logit est définie par g(π) = logit(π) = ln π 1 −π avec g−1(x) = ex 1 + ex . Plusieurs raisons, tant théoriques que pratiques, font préférer cette dernière solution. Le rapport π/(1 −π), qui exprime une “cote”, est l’odds et la ré- gression logistique s’interprète donc comme la recherche d’une modélisation linéaire du “log odds” tandis que les coefficients de certains modèles expriment des “odds ratio” c’est-à-dire l’influence d’un facteur qualitatif sur le risque (ou la chance) d’un échec (d’un succès) de Z. Cette section se limite à la description de l’usage élémentaire de la régres- sion logistique. Des compléments concernant l’explication d’une variable qua- litative ordinale (plusieurs modalités), l’intervention de variables explicatives avec effet aléatoire, l’utilisation de mesures répétées donc dépendantes, sont à rechercher dans la bibliographie. 3.2 Modèle binomial On considère, pour i = 1, . . . , I, différentes valeurs fixées x1 i , . . . , xq i des variables explicatives X1, . . . , Xq. Ces dernières pouvant être des variables quantitatives ou encore des variables qualitatives, c’est-à-dire des facteurs issus d’une planification expérimentale. Pour chaque groupe, c’est-à-dire pour chacune des combinaisons de valeurs ou facteurs, on réalise ni observations (n = PI i=1 ni) de la variable Z qui se mettent sous la forme y1/n1, . . . , yI/nI où yi désigne le nombre de “succès” observés lors des ni essais. On suppose que toutes les observations sont indé- pendantes et qu’à l’intérieur d’un même groupe, la probabilité πi de succès est constante. Alors, la variable Yi sachant ni et d’espérance E(Yi) = niπi suit une loi binomiale B(ni, πi) dont la fonction de densité s’écrit : P(Y = yi) = ni yi πyi i (1 −πi)(ni−yi). On suppose que le vecteur des fonctions logit des probabilités πi appartient au sous-espace vect{X1, . . . , Xq} engendré par les variables explicatives : logit(πi) = x′ iβ i = 1, . . . , I 2 Régression logistique ou modèle binomial ce qui s’écrit encore πi = ex′ iβ 1 + ex′ iβ i = 1, . . . , I. Le vecteur des paramètres est estimé par maximisation de la log- vraisemblance. Il n’y a pas de solution analytique, celle-ci est obtenue par des méthodes numériques itératives (par exemple Newton Raphson) dont certaines reviennent à itérer des estimations de modèles de régression par moindres car- rés généralisés avec des poids et des métriques adaptés à chaque itération. L’optimisation fournit une estimation b de β, il est alors facile d’en déduire les estimations ou prévisions des probabilités πi : b πi = ex′ ib 1 + ex′ ib et ainsi celles des effectifs b yi = nib πi. Remarques 1. La matrice X issue de la planification expérimentale est construite avec les mêmes règles que celles utilisées dans le cadre de l’analyse de co- variance mixant variables explicatives quantitatives et qualitatives. Ainsi, les logiciels gèrent avec plus ou moins de clarté le choix des variables indicatrices et donc des paramètres estimables ou contrastes associés. 2. La situation décrite précédemment correspond à l’observation de données groupées. Dans de nombreuses situations concrètes et souvent dès qu’il y a des variables explicatives quantitatives, les observations xi sont toutes distinctes. Ceci revient donc à fixer ni = 1; i = 1, . . . , I dans les ex- pressions précédentes et la loi de Bernouilli remplace la loi binomiale. Certaines méthodes ne sont alors plus applicables et les comportements asymptotiques des distributions des statistiques de test ne sont plus va- lides, le nombre de paramètres tendant vers l’infini. 3. Dans le cas d’une variable explicative X dichotomique, un logiciel comme SAS fournit, en plus de l’estimation d’un paramètre b, celle des odds ratios ; b est alors le log odds ratio ou encore, eb est l’odds ratio. Ceci s’interprète en disant que Y a eb fois plus de chance de succès (ou de maladie comme par un exemple un cancer du poumon) quand X = 1 (par exemple pour un fumeur). 3.3 Régressions logistiques polytomique et ordinale La régression logistique uploads/Management/ st-m-modlin-reglog.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/9jBRypQqGmzBvjLdmH6Xx3NIZ6TLX6A494dM1de7miO9P5mf1EaDwV6FaJxBRTBqNPjtfJ1Ty6dB71p09WYKSJOW.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/PU6adB1CAKSC1Rda73YFtC4umE5PdXTyMyGWCRas85gqThGk5REGU58jGia7X34caNJuBoY6Lo7J8oIgLDQZdrOT.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/pP59DY1uGYOMAuzZgWZX8HoMYCkdkO2lN5M8nN00EGRNSsyUqm0wid5lEFaGozUxNrP6W94KYJ5LYjoRfxBDhWat.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/qpq5ZJ2uRw6FVFvoEyMPv5mla8kXjglR0eTOPq1FYQQqD1b4Ozs8ycVEDUDzayS4BKhs94tfpQ9eYiMJE2pr1mhy.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/qGJZ0gDkTDFHc0vUcwr6jXMFyTwmIyIZaLEM3DOb4noYZGVs6D9NqcQjMnOkCZAuYyf5W0MxIvdtSu7f92kujCaz.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/hY848PRkMJPstXnpywZV0qKAVL1yWAgnZ6Nw4JhExMLAb2GUUFJt7RhZ3racGJrBn2azixOjhZ9oZm7nApZUa3px.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/MVMrbIWYZuQrKutFfJkTQ8rEWjzaBGP5Qbi2nb1c2MoRBz9uPgZWdKzD3kYIX7fEKH9qRWgvKCVD4noYXAAViT2m.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/UBZg1HHgudyV2AQfjzpt1jLQpO1HxtmZmXllnlLl061C9R6VGnsVWhW1cMYuyjErqLWLwACPmHrmo9HIdxKm1T2t.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/gos0TfZrQHOSeUFMSXLTx0OiLK9i8plBWVr0jf0oA4ZUAnfsc5GtYsScZZDAqONigwTw4o1CzNYS0jcaO4vDAYQY.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/rnXyvNiGuhGrGmvTzXWBFxyumIvV8k0llFgYf0tcn9PDUUOfWPtW7rOY86YpDjk1vDhIbTeKIwQyjDKknVFFXXIZ.png)
-
25
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 31, 2022
- Catégorie Management
- Langue French
- Taille du fichier 0.2533MB