Cours d‘Analyse de Données But Synthétiser, structurer l'information contenue

Cours d‘Analyse de Données But Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables). Méthodes Algèbre linéaire: les données sont vues de manière abstraites comme un nuage de points dans un espace vectoriel. On utilise – Des matrices qui permettent de manipuler un ensemble de variables comme un objet mathématique unique ; – Des valeurs et vecteurs propres qui permettent de décrire la structure d'une matrice. – Des métriques : permettent de définir la distance entre deux points de l'espace vectoriel ; on utilise aussi des produits scalaires. Théorie des probabilités nécessaire en statistique inferentielle (estimation, tests, modélisation et prévision,...). Individus et variables  Population groupe ou ensemble d'individus que l'on analyse.  Recensement étude de tous les individus d'une population donnée.  Sondage étude d'une partie seulement d'une population appelée échantillon.  Variables ensemble de caractéristiques d'une population. – quantitatives: nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent ^être discrètes (ex : nombre d'éléments dans un ensemble) ou continues (ex: prix, taille) ; – qualitatives: appartenance a une catégorie donnée ; elles peuvent être nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant). Description de données quantitatives  Définition On appelle variable un vecteur x de taille n. Chaque coordonnée xi correspond a un individu. On s'intéresse ici a des valeurs numériques.  Poids Chaque individu a éventuellement un poids pi, tel que p1+ + pn=1. On a souvent p = 1 / n.  Représentation histogramme en découpant les valeurs de la variable en classes.  Résumes on dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des données : effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3eme quartile, ... Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera principalement la moyenne, la variance et l'écart type. Moyenne arithmétique Définition On note ou pour des données pondérées Propriétés la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes propriétés mathématiques.   = = = = n i i i n i i x p x x n x 1 1 1 Exemple d’une moyenne statistique X: altitude de 10 avions en 1000 mètre 07,08,10,11,11,13;13,14,15,18 07+08+10+11+11+13+13+14+15+18 = 10 12 = Exemple d’une moyenne statistique  Exemple ou la moyenne nous ne donne pas beaucoup d’information sur la position des avions  La variance nous donne plus d’information sur la distribution des avions par rapport a la moyenne d’altitude 07,08,10,11,11,13;13,14,15,18 03,04,04,07,07,17;19,19,20,20 11,11,12,12,12,12;12,12,13,13 12 12 12 Variance et ecart-type Définition la variance de x est définie par L'écart type sx est la racine carrée de la variance. Propriétés La variance satisfait la formule suivante La variance est « la moyenne des carres moins le carre de la moyenne ». L'ecart-type, qui a la même unité que x, est une mesure de dispersion.    = = = − = − = − = n i i x n i i i x n i i x x x p n s x x p s ou x x n s i 1 2 2 2 1 2 2 1 2 2 ) ( 1 ) ( ) ( 1 Mesure de liaison entre deux variables Définitions la covariance observée entre deux variables x et y est et le cœfficient de r de Bravais-Pearson ou coefficient de corrélation est donnée par 2 1 2 1 1 1 1 ) ( ) ( ) ( ) ( ) ( ) ( y y p x x p y y x x p s s s r xy y x p y y x x p s i n i i n i i i i n i i i y x xy xy i i n i i i n i i i xy − − − − = = − = − − =      = = = = = Propriétés du coefficient de corrélation  Borne On a toujours (inégalité de Cauchy Schwarz)  Variables liées |rxy| = 1 si et seulement si x et y sont linéairement liées En particulier, rxx = 1.  Variables décorrélées si rxy = 0, on dit que les variables sont decorrelees. Cela ne veut pas dire qu'elles sont indépendantes ! n i c by ax r r i i xy xy    = +  =   − 1 ) 1 1 1 Corrélation et liaison significative  Problème A partir de quelle valeur de rxy peut-on considérer que les variables x et y sont liées?  Domaine d'application on se place dans le cas ou le nombre d'individus est n > 30.  Méthode si x et y sont deux variables gaussiennes indépendantes, alors on peut montrer que suit une loi de Fischer-Snedecor F(1; n-2). Le résultat est valable dans le cas non gaussien pour n > 30. 2 2 1 ) 2 ( xy xy r r n − − Le test on se fixe un risque d'erreur (0,01 ou 0,05 en général) et on calcule la probabilité Si π < α on considère que l'événement est trop improbable et que donc que l'hypothèse originale d'indépendance doit être rejetée au seuil . On trouvera en général ces valeurs dans une table pré-calculée de la loi F.  = − −  − ) 1 ) 2 ( ) 2 , 1 ( ( 2 2 xy xy r r n n F P Interlude : notation matricielle  Matrice tableau de données carre ou rectangulaire.  Vecteur matrice a une seule colonne.  Cas particuliers  Transposition de matrice échange des lignes et des colonnes d'une matrice ; on note M’ la transposée de M.           =           = 1 1 1 1 ... 0 0 ... 1     I Tableau de données  Pour n individus et p variables, on a le tableau X est une matrice rectangulaire a n lignes et p colonnes                     = = p n n j i p p x x x x x x x x x x X ... ... ) ,..., ( 1 2 2 1 2 1 2 1 1 1 1     Vecteurs variable et individu  Variable Une colonne du tableau  Individu Une ligne du tableau ) ( ' 2 1 2 1 p i i i i j n j j j x x x e x x x x =               = La matrice des poids  Pourquoi utile quand les individus n'ont pas la même importance  Comment on associe aux individus un poids pi tel que et on représente ces poids dans la matrice diagonale de taille n  Cas uniforme tous les individus ont le même poids pi = 1 / n et D = I / n             = = + + + n n p p p D p p p ... 0 0 ... 1 ... 2 1 2 1    Point moyen et tableau centré Point moyen c'est le vecteur g des moyennes arithmétiques de chaque variable : ou On peut aussi écrire Tableau centré il est obtenu en centrant les variables autour de leur moyenne ou, en notation matricielle, X D I g X Y x x y D X g x p x x x g j j i j i n i j i i j p ) ' 11 ( ' 1 1 ' ) ... ( ' 1 1 − = − = − = = = =  = Matrice de variance covariance Définition c'est une matrice carrée de dimension p ou skl est la covariance des variables xk et xl et s2 j est la variance de la variable xj Formule matricielle DY Y gg DX X V s s s s s s s V p p p p ' ' ' ... ... 1 2 2 1 2 1 2 1 1 1 = − =               =    Matrice de corrélation Définition Si l'on note Formule matricielle                     = =               = = p s s s p p l k kl kl s s s D uploads/Geographie/ analyse-de-donnees.pdf

  • 33
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager