Tp enpc 4 Statistique Numérique et Analyse de Données Ecole des Ponts ParisTech ème année TP RÉGRESSION LINÉAIRE Note historique Le terme regression a été introduit par Francis Galton chercheur britannique du e siècle et cousin de Charles Darwin dans le c

Statistique Numérique et Analyse de Données Ecole des Ponts ParisTech ème année TP RÉGRESSION LINÉAIRE Note historique Le terme regression a été introduit par Francis Galton chercheur britannique du e siècle et cousin de Charles Darwin dans le célèbre article Regression towards mediocrity in hereditary stature Journal of the Anthropological Institute - galton org essays - galton- -jaigi- regression-stature pdf pour décrire un phénomène biologique Le phénomène est que la taille des enfants nés des parents inhabituellement grands ou petits se rapproche de la taille moyenne de la population Sir Francis Galton - Régression linéaire simple les données de Galton On se propose maintenant d ? utiliser le modèle de régression simple pour analyser les données des tailles utilisées par Galton Charger les données library UsingR data galton attach galton Af ?cher les histogrammes des variables parent et child pour avoir une idée de la façon dont elles sont réparties Déterminer les moyennes et les écart-types des variables parent et child C' La Commande lm La commande lm permet d ? e ?ectuer une régression linéaire multiple La syntaxe générale est ?t lm formule jeu de données options Les arguments ?? L ? argument formule est de forme VAR ?? VAR VAR VAR o? VAR désigne la variable réponse VAR - VAR désignent les variables explicatives il peut y en avoir autant qu ? on veut Il faut noter que la variable explicative constante est inclue par défaut dans la régression Si l ? on souhaite qu ? elle soit exclue il faut saisir VAR ?? VAR VAR VAR ?? L ? argument jeu de données est optionnel il sers à spéci ?er le jeu de données dans lequel se trouvent les variables de la régression ?? L ? argument options n ? est utilisée que pour une analyse très avancée Le résultat ?t est un objet de classe lm ayant pour attributs principaux ?? coe ?cients les valeurs estimées des coe ?cients ? j ?? ?tted les valeurs ajustées y i ?? residuals les résidus i ?? df le degré de liberté d n ?? p ?? et d n ?? p si la variable explicative constante a été exclue Les fonctions plot summary mais aussi anova peuvent prendre comme argument un objet de classe lm E ?ectuer une régression linéaire LinReg lm child parent plot parent child bg red abline LinReg lwd col blue summary LinReg En déduire les estimateurs des valeurs de ? et de ? tels que child ? ? parent Quelle est la valeur estimée de la variance des erreurs La valeur estimée de ? con ?rme-t-elle la loi héréditaire proposée et défendue par Galton Au vu de la valeur du coef ?cient de détermination R discuter de la qualité prédictive du modèle linéaire La théorie de Galton a été étudiée de façon plus détaillée par Karl Pearson ?? l ? un des fondateurs de la statistique mathématique Il a fait des statistiques Csur un échantillon plus grand Ces données se trouvent dans le ?chier

  • 35
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager