Exploration Statistique Exploration Statistique Multidimensionnelle Data Mining

Exploration Statistique Exploration Statistique Multidimensionnelle Data Mining PHILIPPE BESSE NB. Les cours et travaux pratiques (scénarios, ateliers) du site wikistat.fr sont dispensés en formation initiale à l’INSA de Toulouse dans la spécialité d’Ingénieurs en Génie Mathématique et Modélisation. Ils sont également proposés dans le cadre de stages de Formation Professionnelle Qualifiante. Équipe de Statistique et Probabilités Institut de Mathématiques de Toulouse — UMR CNRS C5219 Département Génie Mathématique et Modélisation Institut National des Sciences Appliquées de Toulouse — 31077 – Toulouse cedex 4. 1 Exploration Statistique 2 Exploration Statistique Table des matières • Introduction à la Statistique page 5 • Description unidimensionnelle page 12 • Description bidimensionnelle page 23 • Introduction exploration multidimensionnelle page 29 • Analyse en Composantes Principales page 31 • Analyse Factorielle Discriminante page 43 • Analyse Factorielle des Correspondances page 49 • Analyse Factorielle des Correspondances Multiple page 57 • Analyse Canonique des Corrélations page 65 • Positionnement Multidimensionnel page 75 • Classification non supervisée page 80 • Factorisation par matrices non négatives (NMF) page 93 • Annexe • Compléments d’algèbre linéaire page 99 Attention ce cours est dense, la lecture de ce document ne suffira pas à la bonne compréhension des outils qui y sont décrits de façon synthétique. La présence aux cours et la participation active aux TDs sont indispensables à l’acquisition des compétences incontournables pour une utilisation raisonnable et raisonnée des techniques d’apprentissage statistique. 3 Exploration Statistique 4 1 Statistique : Introduction Statistique : Introduction Résumé Introduction à la Statistique et ses méthodes. Contexte et objectifs (descriptif, explicatif, prédictif) d’une analyse statistique ; les com- pétences nécessaires. Ce cours est structuré en deux niveaux principaux et quelques grands thèmes : • L : Description et inférences statistiques élémentaires • M1 : Exploration multivariée • M1 : Inférence statistique • M1 : Modèle linéaire et linéaire général • M2 : Modèle linéaire, modèle mixte • M2 : Apprentissage et modélisation Réflexions autour de : Statistique et Déontologie scientifique 1 Le métier de statisticien Le développement continu des moyens informatiques de saisie, de stockage (bases de données) et de calcul permet la production, la gestion, le traitement et l’analyse d’ensembles de données de plus en plus volumineux. Par exemple, les 600 Mb de données produites en une dizaine d’heures par l’un des séquen- ceurs actuels représentent l’équivalent de la production mondiale déposée dans GenBank entre 1982 et 1996. Les séquenceurs arrivant sur le marché en 2010 produisent en 5 jours 200Gb par traitement. Le perfectionnement des inter- faces graphiques offre aux utilisateurs, statisticiens ou non, des possibilités de mise en œuvre très simples avec des outils logiciels de plus en plus "convi- viaux". Cette évolution, ainsi que la popularisation de nouvelles méthodes algorithmiques (réseaux de neurones, support vector machine, agrégation de modèles...) et outils graphiques, conduisent au développement et à la commer- cialisation de logiciels généraux, ou spécifiques à des métiers, qui intègrent un sous-ensemble de méthodes statistiques et algorithmiques plus ou moins exhaustif. Une question émerge alors de façon très présente ; elle est fondamentale pour l’emploi et les débouchés des étudiants, la gestion des ressources hu- maines et les investissements économiques des entreprises ou encore les stra- tégies scientifiques des laboratoires de recherche. Quelles sont les compétences nécessaires à la mise en œuvre de tels logiciels pour analyser, modéliser, interpréter des corpus de données de plus en plus complexes et volumineux produits par une entreprise ou un laboratoire ? Les enjeux sont en effet majeurs ; les résultats influent directement sur les prises de décision du management ou la validation de résultats scientifiques et leur valorisation par des publications. 2 Terminologie Le travail du statisticien est d’abord un travail de communication avec des représentants d’autres disciplines ou d’autres métiers. Ceci nécessite beaucoup de rigueur et donc de précision dans l’emploi des mots et concepts lorsqu’il s’agit de traduire en phrases intelligibles des résultats numériques ou gra- phiques. En effet, de ces interprétations découleront des prises de décision. 2.1 Statistique, statistiques, statistique Le mot statistiques avec un "s" est apparu au XVIIIème siècle pour dési- gner des quantités numériques : des tables ou états, issus de techniques de dénombrement et décrivant les ressources économiques (impôts...), la situa- tion démographique (conscription...), d’un pays. La Statistique est une sous- discipline des Mathématiques qui s’est développée depuis la fin du XIXème siècle notamment à la suite des travaux de l’école anglaise (K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman...). Une statistique est une quantité dé- finie par rapport à un modèle (i.e. une statistique de test) permettant d’inférer sur son comportement dans une situation expérimentale donnée. 2.2 Statistique descriptive, inférentielle et apprentis- sage De manière approximative, il est possible de classer les méthodes statis- tiques en trois groupes : celui des méthodes descriptives, celui des méthodes Page 5 sur 104 06/14 2 Statistique : Introduction inférentielles et celui récent de l’apprentissage. • La Statistique descriptive regroupe les méthodes dont l’objectif princi- pal est la description des données étudiées ; cette description des données se fait à travers leur présentation (la plus synthétique possible), leur re- présentation graphique, et le calcul de résumés numériques. Dans cette optique, il n’est pas fait appel à des modèles probabilistes. On notera que les termes de statistique descriptive, statistique exploratoire et analyse des données sont quasiment synonymes. • La statistique inférentielle. Ce terme regroupe les méthodes dont l’objec- tif principal est de préciser un phénomène sur une population globale, à partir de son observation sur une partie restreinte de cette population, l’échantillon. Il s’agit donc d’induire (ou encore d’inférer) du particu- lier au général avec un objectif principalement explicatif. Ce passage ne peut se faire qu’aux moyens de modèles et d’hypothèses probabilistes. Les termes de statistique inférentielle, statistique mathématique, et statis- tique inductive sont eux aussi quasiment synonymes. • L’apprentissage statistique est issu de l’interface entre deux disciplines : Statistique et Machine Learning (apprentissage machine). L’objectif est principalement la construction d’un modèle statistique traditionnel ou algorithmique sans nécessairement d’hypothèse probabiliste, en privilé- giant la prévision d’une variables qualitative (discrimination ou classi- fication supervisée) ou quantitative (régression). Le contexte est souvent celui de données de grandes dimensions avec comme défimajeur le cas où le nombre de variables explicatives p est considérablement plus important que le nombre n d’observations ou taille de l’échantillon dit d’apprentis- sage. D’un point de vue méthodologique, la statistique descriptive précède la sta- tistique inférentielle ou l’apprentissage statistique dans une démarche de trai- tement de données : ces différents aspects de la statistique se complètent bien plus qu’ils ne s’opposent une fois que le ou les objectifs : descriptif, explicatif, prédictif sont explicités. Le vocabulaire de la Statistique : Population Ω(ou population statistique) : ensemble (au sens mathématique du terme) concerné par une étude statistique. On parle parfois de champ de l’étude. Individu ω ∈Ω(ou unité statistique) : tout élément de la population. Échantillon : sous–ensemble de la population sur lequel sont effectivement réalisées les observations. Taille de l’échantillon n : cardinal du sous-ensemble correspondant. Enquête (statistique) : opération consistant à observer (ou mesurer, ou ques- tionner...) l’ensemble des individus d’un échantillon. Recensement : enquête dans laquelle l’échantillon observé est la population tout entière (enquête exhaustive). Sondage : enquête dans laquelle l’échantillon observé est un sous–ensemble strict de la population (enquête non exhaustive). Variable (statistique) : Ω X 7− →  E si qualitative R si quantitative caractéristique (âge, salaire, sexe, glycémie...), définie sur la population et observée sur l’échantillon ; mathématiquement, il s’agit d’une applica- tion définie sur l’échantillon. Si la variable est à valeurs dans R (ou une partie de R, ou un ensemble de parties de R), elle est dite quantitative (âge, salaire, taille...) ; sinon elle est dite qualitative (sexe, catégorie so- cioprofessionnelle...). Si les modalités d’une variables qualitatives sont ordonnées (i.e. tranches d’âge), elle est dite qualitative ordinale et sinon qualitative nominale. Données (statistiques) : ensemble des individus observés (échantillon), des variables considérées, et des observations de ces variables sur ces indivi- dus. Elles sont en général présentées sous forme de tableaux (individus en lignes et variables en colonnes) et stockées dans un fichier informatique. Lorsqu’un tableau ne comporte que des nombres (valeurs des variables quantitatives ou codes associés aux variables qualitatives), il correspond à la notion mathématique de matrice. 3 Démarche du statisticien Le crédo de l’enseignant de statistique consiste à répéter inlassablement : un statisticien (ou les compétences qu’il représente) doit être associé préalable- ment à une étude, des expérimentations, une enquête... De la qualité du recueil et de l’organisation des données dépendra bien évidemment la pertinence des résultats de l’analyse. Plusieurs questions sont préalables : Page 6 sur 104 06/14 3 Statistique : Introduction 3.1 Expérimentation • Quelle est la question biologique, sociologique, épidémiologique à la- quelle je veux apporter une réponse ? En particulier, quel est l’objectif (descriptif, explicatif, prédictif ou une combinaison) ? • Quelle est la population étudiée ? • Comment planifier des expériences ou des recueils d’informations dans des bases pré-existantes ? • Quels sont les échantillons ? • Précision des conditions expérimentales • Observations et mesures uploads/Management/ datamining-pdf.pdf

  • 33
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jul 09, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 3.5567MB