Cours d‘Analyse de Données objectifs généraux de l'analyse des données Synthét
Cours d‘Analyse de Données objectifs généraux de l'analyse des données Synthétiser, structurer l'information contenue dans des données multidimensionnelles (n individus, p variables). Les objectifs que se sont fixés les chercheurs en analyse de données sont donc de répondre aux problèmes posés par des tableaux de grandes dimensions. Les objectifs sont souvent présentés en fonction du type de méthodes, ainsi deux objectifs ressortent : la visualisation des données dans le meilleur espace réduit et le regroupement dans tout l'espace. Les méthodes de l'analyse de données doivent donc permettre de représenter synthétiquement de vastes ensembles numériques pour faciliter l'opérateur dans ses décisions. En fait d'ensembles numériques, les méthodes d'analyse de données se proposent également de traiter des données qualitatives, ce qui en fait des méthodes capables de considérer un grand nombre de problèmes. Les représentations recherchées sont bien souvent des représentations graphiques, comme il est difficile de visualiser des points dans des espaces de dimensions supérieures à deux, nous chercherons à représenter ces points dans des plans. Ces méthodes ne se limitent pas à une représentation des données, ou du moins pour la rendre plus aisée, elles cherchent les ressemblances entre les individus et les liaisons entre les variables. Ces proximités entre individus et variables vont permettre à l'opérateur déterminer une typologie des individus et des variables, et ainsi il pourra interpréter ses données et fournir une synthèse des résultats des analyses. Nous voyons donc que les deux objectifs précédemment cités sont très liés voir indissociables, ce qui entraîne souvent l'utilisation conjointe de plusieurs méthodes d'analyse de données. Méthodes Algèbre linéaire: les données sont vues de manière abstraites comme un nuage de points dans un espace vectoriel. On utilise – Des matrices qui permettent de manipuler un ensemble de variables comme un objet mathématique unique ; – Des valeurs et vecteurs propres qui permettent de décrire la structure d'une matrice. – Des métriques : permettent de définir la distance entre deux points de l'espace vectoriel ; on utilise aussi des produits scalaires. Théorie des probabilités nécessaire en statistique inferentielle (estimation, tests, modélisation et prévision,...). Individus et variables Population groupe ou ensemble d'individus que l'on analyse. Recensement étude de tous les individus d'une population donnée. Sondage étude d'une partie seulement d'une population appelée échantillon. Variables ensemble de caractéristiques d'une population. – quantitatives: nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent ^être discrètes (ex : nombre d'éléments dans un ensemble) ou continues (ex: prix, taille) ; – qualitatives: appartenance a une catégorie donnée ; elles peuvent être nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant). Description de données quantitatives Définition On appelle variable un vecteur x de taille n. Chaque coordonnée xi correspond a un individu. On s'intéresse ici a des valeurs numériques. Poids Chaque individu a éventuellement un poids pi, tel que p1+ + pn=1. On a souvent p = 1 / n. Représentation histogramme en découpant les valeurs de la variable en classes. Résumes on dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des données : effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3eme quartile, ... Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera principalement la moyenne, la variance et l'écart type. Moyenne arithmétique Définition On note ou pour des données pondérées Propriétés la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes propriétés mathématiques. = = = = n i i i n i i x p x x n x 1 1 1 Exemple d’une moyenne statistique X: altitude de 10 avions en 1000 mètre 07,08,10,11,11,13;13,14,15,18 07+08+10+11+11+13+13+14+15+18 = 10 12 = Exemple d’une moyenne statistique Exemple ou la moyenne nous ne donne pas beaucoup d’information sur la position des avions La variance nous donne plus d’information sur la distribution des avions par rapport a la moyenne d’altitude 07,08,10,11,11,13;13,14,15,18 03,04,04,07,07,17;19,19,20,20 11,11,12,12,12,12;12,12,13,13 12 12 12 Variance et ecart-type Définition la variance de x est définie par L'écart type sx est la racine carrée de la variance. Propriétés La variance satisfait la formule suivante La variance est « la moyenne des carres moins le carre de la moyenne ». L'ecart-type, qui a la même unité que x, est une mesure de dispersion. = = = − = − = − = n i i x n i i i x n i i x x x p n s x x p s ou x x n s i 1 2 2 2 1 2 2 1 2 2 ) ( 1 ) ( ) ( 1 Mesure de liaison entre deux variables Définitions la covariance observée entre deux variables x et y est et le cœfficient de r de Bravais-Pearson ou coefficient de corrélation est donnée par 2 1 2 1 1 1 1 ) ( ) ( ) ( ) ( ) ( ) ( y y p x x p y y x x p s s s r xy y x p y y x x p s i n i i n i i i i n i i i y x xy xy i i n i i i n i i i xy − − − − = = − = − − = = = = = = Propriétés du coefficient de corrélation Borne On a toujours (inégalité de Cauchy Schwarz) Variables liées |rxy| = 1 si et seulement si x et y sont linéairement liées En particulier, rxx = 1. Variables décorrélées si rxy = 0, on dit que les variables sont decorrelees. Cela ne veut pas dire qu'elles sont indépendantes ! n i c by ax r r i i xy xy = + = − 1 ) 1 1 1 Corrélation et liaison significative Problème A partir de quelle valeur de rxy peut-on considérer que les variables x et y sont liées? Domaine d'application on se place dans le cas ou le nombre d'individus est n > 30. Méthode si x et y sont deux variables gaussiennes indépendantes, alors on peut montrer que suit une loi de Fischer-Snedecor F(1; n-2). Le résultat est valable dans le cas non gaussien pour n > 30. 2 2 1 ) 2 ( xy xy r r n − − Le test on se fixe un risque d'erreur (0,01 ou 0,05 en général) et on calcule la probabilité Si π < α on considère que l'événement est trop improbable et que donc que l'hypothèse originale d'indépendance doit être rejetée au seuil . On trouvera en général ces valeurs dans une table pré-calculée de la loi F. = − − − ) 1 ) 2 ( ) 2 , 1 ( ( 2 2 xy xy r r n n F P Interlude : notation matricielle Matrice tableau de données carre ou rectangulaire. Vecteur matrice a une seule colonne. Cas particuliers Transposition de matrice échange des lignes et des colonnes d'une matrice ; on note M’ la transposée de M. = = 1 1 1 1 ... 0 0 ... 1 I Tableau de données Pour n individus et p variables, on a le tableau X est une matrice rectangulaire a n lignes et p colonnes = = p n n j i p p x x x x x x x x x x X ... ... ) ,..., ( 1 2 2 1 2 1 2 1 1 1 1 Vecteurs variable et individu Variable Une colonne du tableau Individu Une ligne du tableau ) ( ' 2 1 2 1 p i i i i j n j j j x x x e x x x x = = La matrice des poids Pourquoi utile quand les individus n'ont pas la même importance Comment on associe aux individus un poids pi tel que et on représente ces poids dans la matrice diagonale de taille n Cas uniforme tous les individus ont le même poids pi = 1 / n et D = I / n = = + + + n n p p p D p p p ... 0 0 ... 1 ... 2 1 2 1 Point moyen et tableau centré uploads/Management/ analyse-de-donnees-p1.pdf
Documents similaires
-
13
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 12, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.2136MB