UMP Université Mohammed Premier Ecole Nationale des Sciences Appliquées ENSA AN
UMP Université Mohammed Premier Ecole Nationale des Sciences Appliquées ENSA ANALYSE DES DONNEES MULTIVARIEES Par R. El Mehdi Support de cours 2020/2021 2 Introduction L'analyse des données est une technique relativement récente, qui s'est constituée dans la décennie 1960-1970. Elle permet de décrire plus sûrement de grands gisements de données, et constitue un outil précieux pour le chercheur qui veut extraire le maximum de résultats des données qu'il a collectées. Nombreuses sont les disciplines dans divers domaines qui font appel à des outils statistiques pour traiter des centaines et des milliers de données, mais dans un univers aléatoire, il n'est absolument pas prouvé qu'on puisse connaître avec certitude les lois et les distributions auxquelles obéissent les phénomènes observés. Il est donc indispensable d'utiliser les méthodes de l'analyse des données car elles s'appliquent à des faits bruts, et le recours à des hypothèses probabilistes contestables est pratiquement absent de l'analyse des données. Cette technique est une branche de la statistique descriptive perfectionnée. Son propre est de raisonner sur un nombre quelconque de données concernant un nombre quelconque de variables, d'où le nom d'analyse multivariée qu'on lui donne souvent. Pour effectuer ce raisonnement, l'analyse des données a fait appel aux espaces mathématiques comportant un nombre quelconque de dimensions et aux outils informatiques. Liée à l'informatique, l'analyse multidimensionnelle n'a pu être développée qu'après la relance de l'informatique, car elle nécessite la réalisation des calculs matriciels infaisables en l'absence de l'ordinateur. Ces calculs automatiques ont permis le développement des deux grands groupes de l'analyse des données, qui sont les méthodes d'analyse factorielle et les méthodes de classification automatique. L'analyse factorielle porte sur des nuages de points dont on cherche à trouver les directions d'allongement maximal. Elle traite des tableaux de nombres et remplace un tableau difficile à lire par un tableau plus simple à lire qui soit une bonne approximation de celui-ci. Chaque méthode correspond à un procédé particulier pour construire le nuage et mesurer son allongement. Parmi les méthodes d'analyse factorielle on cite, l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle des Correspondances (AFC), l'Analyse des Correspondances Multiples (ACM), l'Analyse Canonique (AC), ... La classification automatique porte sur des ensembles d'individus qu'il faut regrouper en catégories jugées homogènes au regard de tel ou tel critère. La nature des variables observées et le calcul de l'homogénéité des catégories varient d'une méthode à l'autre. Parmi les méthodes de classification on trouve les méthodes ascendantes et les méthodes descendantes. L'usage des méthodes ascendantes est plus fréquent, car les méthodes descendantes manquent de précision. Le principe de la technique de classification ascendante est de construire à partir des éléments de l'ensemble I une suite finie des partitions emboîtées. Au niveau le plus bas de cette hiérarchie sont placées les classes à un élément, appelées classes terminales ou minimales. Les autres classes sont appelées noeuds de la hiérarchie, et l'ensemble I 3 constitue le noeud le plus haut. On note ici qu'un noeud est une réunion de deux classes qui se trouve au-dessous de lui. 4 Chapitre1 Statistique descriptive élémentaire 1. Rappel sur l’analyse descriptive simple 1.1. Mesures de tendance centrale et de dispersion (Voir le support du cours Proba / Stat – CP2). 1.2. Graphisme Le graphique est un élément clef pour communiquer des résultats d’une analyse statistique simple ou multivariée. La plupart des observations que l’on peut faire sur des séries de données peuvent en général être illustrées sur la base des graphiques et les utilisateurs de la statistique sont de plus en plus demandeurs de cet outil. C’est un outil souvent simple à lire et à interpréter surtout s’il est représenté dans un espace de dimension 2 ou 3. Parmi les graphes usuels on cite : • Graphe X-Y (Scatter plot) Le scatter plot est une méthode standard pour visualiser les données. Il représente le nuage de points i i y x , pour tout n i ,..., 1 et il permet entre autre de détecter une probable relation entre deux variables si le nuage a une tendance particulière. 5 • Graphique temporel Le graphique temporel est une représentation graphique de l’évolution d’une série dans le temps. Il est parfois appelé le chronogramme. Le codage d’un signal électrique dans le temps, à titre d’exemple, ou de l’effet d’un appareil sur la santé peut être représenté par la série suivante : • Surfaces de réponse La surface de réponse est une courbe représentée dans un espace de dimension 3 (3D). Les deux axes du plan 2 1, x x représentent les variables et le dernier axe représente la densité 2 1, x x f . Ce dernier axe dresse en couleurs les niveaux de la fonction pour faciliter la lecture du graphique. La projection de la courbe de f sur le plan donne un graphique appelé Contour. 6 • Graphe d’autocorrélation Autocorrélation L’autocorrélation entre deux variables i X et k i X mesure la dépendance d’une variable et son passé. L’intensité de la dépendance dans ce cas est définie par le coefficient d’autocorrélation d’ordre k k i i k i i k i i k X V X V X X Cov X X . , , Il est estimé par 2 1 1 . N i i N k i k i i k X X X X X X r . A titre indicatif, si les données sont décrites par un modèle Autorégressif d’ordre 1 : i i i X X 1 , i ~ 2 , 0 iN et 1 1 . on a k k k i i k i i k r X V X V X X . , cov . L’autocorrélogramme est un graphique sur lequel sont présentées les 1 r , 2 r , 3 r , … sous forme de bâtonnets. Sont présentées également sur le graphique la ligne 0 y et les deux bornes de l’intervalle de confiance des autocorrélations placé souvent à N 2 . La variable est autoccorélée s’il existe des bâtonnets d’autocorrélation qui sortent de l’intervalle, par conséquent l’indépendance n’est pas remplie. 7 L’indépendance est assurée pour les données du graphique ci-dessus car aucune pique ne sort de l’intervalle. • QQPlot (Quantile-Quantile Plot) Si la variable X pour laquelle on teste la normalité est gaussienne, les points de coordonnées * ) ( , i i x x sont alignés sur la droite d'équation x z x i i * ) ( * ) ( . appelée la droite d’Henri, où * ) (i z sont les quantiles d’ordre 25 . 0 375 . 0 n i Fi calculés en utilisant la loi normale centrée réduite. On compare donc les valeurs des quantiles de la loi empirique i x au quantiles de la loi normale centrée réduite * i x . Cette méthode peut également se généraliser à d'autres distributions en comparant là encore les quantiles théoriques aux quantiles empiriques. Normal Q-Q Plot of X Observed Value 8,0 7,5 7,0 6,5 6,0 5,5 5,0 4,5 Expected Normal Value 6,8 6,6 6,4 6,2 6,0 5,8 5,6 5,4 8 • Histogramme L’histogramme est un graphique qui permet de visualiser la distribution de la variable quantitative. A la différence du diagramme en barre, l’histogramme est constitué d’un certain ensemble de classes 1 , i i a a d’amplitudes égales, à chaque classe on associe un effectif i n . i i i n a a , , 1 sur les axes des abscisses et des ordonnées respectivement sont les rectangles de l’histogramme. Si les amplitudes des classes i i a a 1 , i ne sont pas égales, la largeur du rectangle restera i i a a 1 et la hauteur devient i i i a a n 1 . Le nombre de classes K : Il n’y a pas une méthode standard pour calculer le nombre de classes dans un histogramme, mais généralement on utilise : 3 log 10 1 n K ou n K Il est souvent préférable de faire varier le nombre de classes afin de voir la meilleure façon de représenter l’histogramme de la variable et d’avoir une vision clair sur sa distribution. Cependant, le recours à des logiciels dédiés à cette fin facilitera la tâche de la formation des classes. 105,0 100,0 95,0 90,0 85,0 80,0 75,0 8 6 4 2 0 Std. Dev = 8,09 Mean = 88,2 N = 22,00 Répartition des lapins par niveau de sucre 0 1 2 3 4 5 6 7 8 77 81 85 90 94 uploads/Management/ analyse-donnees-multivariees.pdf
Documents similaires










-
26
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 14, 2022
- Catégorie Management
- Langue French
- Taille du fichier 1.4575MB