Année Universitaire 2021/2022 1 Cours : Apprentissage Artificiel Niveau : L3CS
Année Universitaire 2021/2022 1 Cours : Apprentissage Artificiel Niveau : L3CS présenté par: Mohamed Sahbi Bahroun Institut Supérieur d’Informatique Université de Tunis Elmanar Chapitre 2: Régression linéaire et logistique 2 Méthodes Prédictives Arbres de Décisions Régression Linéaire, Logistique Analyse Discriminante Réseaux de Neurones Deux familles de techniques Méthodes Descriptives Analyse en Composantes Principales ACP Méthodes des Centres Mobiles K-Means Classification Ascendante Hiérarchique CAH 3 Plan 1) Introduction 2) Régression linéaire simple 3) Regression linéaire multiple 4) Régression logistique 4 1. Introduction 5 Objectifs Méthode d’apprentissage supervisé qui a pour objectif d’estimer une variable cible Y (variable à expliquer) en fonction de P variables explicatives Xi La base d’apprentissage est composée de n individus. Pour ces données les variables Y sont connues. Pour la donnée de test : Les Xi sont connues et le Y est à estimer X1 X2 Xp Y I1 . . . . . I2 . . . . . . . . . . . . . . . . . In . . . . . It . . . . ? Données d’apprentiss age Donnée de test 6 Types de régression Linéaire Logistique Simple Multiple Simple Multiple Binaire multinomiale Régression 7 Regression linéaire vs logistique • Regression linéaire : Etudier le lien entre une Variable à Expliquer (VAE) quantitative Y et {Xj } j = 1...p variables explicatives quantitatives Régression linéaire Simple : une seule variable explicative, p=1 Régression linéaire Multiple : plusieurs variables explicatives, p>=2 • Regression logistique : Etudier le lien entre une Variable à Expliquer (VAE) qualitative Y et {Xj } j = 1...p variables explicatives quantitatives ou qualitatives Regression logistique simple : Malade = f(age) Régression logistique multiple : Malade= f(age, fume, diabéte, hypertention) Régression logistique binaire : Malade ϵ {oui, non} Régression logistique multinomiale : Malade ϵ {stade 1, stade 2, stade 3, …..} 8 Objectifs L’analyse de la régression permet d’étudier le type de relation pouvant exister entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes) En d’autres termes, l’analyse de la régression permet d’étudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes. De détecter les individus atypiques 9 Regression Vs correlation • Dans la corrélation on étudie le changement d’une variable en fonction d’une autre variable (une augumente, l’autre diminue par exemple) • La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à la force de l'association, mais nous voulons être en mesure de pouvoir faire des prédictions. : Coefficient de corrélation (Pearson) entre deux variables aléatoires X et Y (populations). Permet d’expliquer comment Y varie en fonction de X 2 échantillons x et y de moyennes et r estimateur de r est toujours compris entre -1 et + 1. si r proche de + 1 ou - 1 , x et y sont bien corrélées; le nuage de points est presque aligné le long d'une droite (croissante si r > 0, décroissante si r < 0). r = 0 Pas de lien linéaire entre x et y x y n i i n i i n i i i y y x x y y x x y x r 1 2 1 2 1 ) ( ) ( ) )( ( ) , ( 10 correlation 11 Pourquoi la Regression • la relation doit être linéaire entre la variable explicative et à expliquer (à prédire) • Les variables explicatives (variables indépendantes) et la variable à expliquer (variable dépendante) sont indépendantes • Les variables explicatives sont indépendantes entre elles. • Les variables indépendants ne doivent pas avoir de relation linéaire parfaite entre elles ( pas de multicolinéarité parfaite) • la distribution de la variable à expliquer y et les variables explicatives x₁, x₂, x₃,…..xp suivent une loi normale dans le cas où l’une de ces dernières est continue. • Un bon modèle de régression comprend un nombre optimal de variables indépendantes, cela signifie qu’il faut prendre les meilleurs variables indépendantes en vue d’une prédiction fiable. • Le modèle doit prendre en compte des variables énoncées dans les objectifs • Une variable indépendante pourrait être exclue du modèle si le degré d’association avec la variable indépendante n’est pas assez fort. 12 2. Régression linéaire simple 13 Objectifs de la régression linéaire Le modèle de prédiction LINEAIRE consiste à estimer la valeur d’une variable continue (dite ≪ à expliquer ≫,≪ cible ≫, en fonction de la valeur d’un certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou ≪ indépendantes ≫) Cette variable ≪ cible ≫ peut être par exemple : le poids : en fonction de la taille le prix d’un appartement : en fonction de sa superficie la consommation d’électricité : en fonction de la température extérieure 14 Besoins Pour estimer la relation entre une variable dépendante (Y) quantitative et plusieurs variables indépendantes (X1, X2, …) Un modèle de régression d'une variable expliquée sur une ou plusieurs variables explicatives dans lequel on fait l'hypothèse que la fonction qui relie les variables explicatives à la variable expliquée est linéaire selon un ensemble de paramètres. Dans ce modèle linéaire simple : X et Y deux variables continues Les valeurs xi de X sont contrôlées et sans erreur de mesure On observe les valeurs correspondantes y1, …, yn de Y Exemples : X peut être le temps et Y une grandeur mesurée à différentes dates Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour différentes valeurs de l’intensité X du courant 15 Régression linéaire simple Equation de régression linéaire simple : Cette équation précise la façon dont la variable dépendante Y est reliée à la seule variable explicative X : Y 0 X 1 Où β0, β 1 sont les paramètres et ε est un bruit aléatoire représentant le terme d’erreur. Y Variable dépendante VI Simple régression 16 Exemple de régression linéaire simple Y f (X1,) poids taille Estimer la consommation de carburant en fonction de la vitesse 17 Calcul des coefficients estimateurs par la méthode des moindres carrés Chaque individu i est caractérisé par un couple de coordonnées (xi, yi) et est représenté par un point sur le graphique. L’ensemble des individus (données d’apprentissage) forme un nuage de points. 18 Calcul des coefficients estimateurs par la méthode des moindres carrés La droite de régression Y = α + βX est la droite qui résume le mieux le nuage de points. Intuitivement, il s’agit de la droite dont les points du nuage sont en moyenne les plus proches (c’est-à-dire la droite qui passe à la plus faible distance de chaque point du nuage, en moyenne). 19 Calcul des coefficients estimateurs par la méthode des moindres carrés La distance d’un point à la droite est la distance verticale entre l’ordonnée du point observé (xi, yi) et l’ordonnée du point correspondant sur la droite (xi, ^yi) . Cette distance d’un point à la droite (yi - ^yi) peut être positive ou négative et la somme des distances à la droite s’annule. 20 Calcul des coefficients estimateurs par la méthode des moindres carrés Pour s’affranchir du signe, on calcule la somme des carrés des distances de chaque point à la droite. La droite de régression est la droite qui minimise la somme des carrés des écarts. Elle est aussi appelée droite des moindres carrés. xi y ^ i 21 Calcul des coefficients estimateurs par la méthode des moindres carrés Une particularité de la droite de régression est de passer par le point moyen théorique de coordonnée (mx, my). 22 Processus d’estimation : méthode des moindres carrés Estimation des coefficients de régression / méthode des moindres carrés ordinaires : Le principe de l’estimation des coefficients de régression : n 2 i i1 n i1 (y i y ˆ i)2 23 Calcul des coefficients estimateurs par la méthode des moindres carrés 24 Calcul des coefficients estimateurs par la méthode des moindres carrés L’estimateur de l’ordonnée à l’origine a est déduit de la pente b et des coordonnées du point moyen (mx, my) : a = my – b mx 25 Exemple Fonction population = f(superficie) pour 27 pays européens On voit qu’il y a probablement une relation linéaire croissante entre la population et la superficie. 26 EXemple En estimant la pente de la droite de régression aux moindres carrés : Ce calcul donne une estimation de l’augmentation moyenne de la population lorsque le territoire augmente d’un km2 . β0 = 1, 96. 2 3 4 5 6 7 8 4 5 6 7 8 x y i x i y i y ˆ y y yi i i y y ˆ y yi ˆ n i i y y SST 1 2 ) ( n i i i y uploads/Management/ chap2-regression.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/JJvWqn95aHsCOerdhMYIexnQywlRjyeR0VQ9OUbtw7IPPWoio3Gf1TUvSQhAbzx5xlvubUZoRT2Mu7HXu4448Li4.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/gP5GIVpwXri5rLzwd6fzI1Rst3vZd09EqYlzEUlh6Qz8KzOMONrygXGnG44i6QRxIPWBJE8UeWUJEGtnsYS7HkTn.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/FZsA2w6ppK94ocnDNIsEnUY89IP6Th0TwAkI7NIbJJcoXsYfLhbwoEffMnIDy5Hvyj6M2MGQqm9nDHprXMXES1Cj.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/DiIJot35qBgjkGP7MK5vYSjWGTlxDDit9oV9Zu1EedNbJUOFdKpKr7cFWzsNW0oDIsQRMaXmW1ejUlG1Ch9lI8kY.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/E7SxcvaVMcW1vVoWEEQk4GGVvZvcdsqweG7e7JXqyPHEXsV5FZwTLp3lBlDJFuKRX6i2zRG9IOuzT1wtCS23scD3.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/B8SSR0xQdKEom8VF5LrgMj8cReUi3QxEsGgUg58uwCOjkzcitkolM6Kk3xJBnazdiuXtXDolVkeYfjSgs8YcPQZv.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/hfj8NkaQiiSDzzv53gk2f0w3nMpi9tSnezU0lpsxoNff7qkZnq6vrrpHlUnCbeqffKxnGkypJg1LQTPUYu3IaeOQ.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/ZwUBetNfFMJVUk9SVBvAjAoZpBDXMevlWGTKYIx4DEJgmaFsk9MNHYDQHPzk0uglUr7KVqfAdhnmgZLH0HPBszBe.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/ZQgBqkLAtuF2jZXXWwAcH91kIiUCYF31DpMSGp6SShrF5BOhOXcJDyMKh46py9myRxWaAZfLbzojzwVRcWVX8Rsd.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/9wRJW2pDsYXj1aYwqWbZ6WwHECY0g3eILGUzpq9qfcFGMeifIW3t5Jt2NlaSACRrO7EqEeG8idff36SOnU7CDkp3.png)
-
20
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 18, 2022
- Catégorie Management
- Langue French
- Taille du fichier 2.6063MB