64 QUEST-CE QUE L'ANALYSE DES DONNÉES' En mettant à jour le tableau des distanc
64 QUEST-CE QUE L'ANALYSE DES DONNÉES' En mettant à jour le tableau des distances on aboutit à un résultat encore différent. En cherchant la plus petite distance possible, on trouve des ex-aequo: les distances entre les classe 3 et 5 et 3 et 4 sont égales. Au total, selon la stratégie d'agrégation adoptée, on aboutit à des configurations différentes à partir d'un même tableau de distances. En réalité, le choix de la distance guide souvent le choix de la stratégie. Dans l'exemple réel où l'on classait les 3000 logements en fonction de 67 caractères par présence-absence, le choix de la distance du X' invitait très fortement à choisir une agrégation cohérente: celle du moment centré d'ordre 2, terme barbare dont vous trouverez la signification par exemple dans JBU1, page 157. A6RE6ATION PAR LA MOYENNE eau chaude + chauffage maison baignoire central individuelle eau chaude+ bai noire 0 2 5 5 g , chauffage central 2,5 0 2,5 maison i di id ll 5 2 5 0 n v ue e , eau chaude baignoire chauffage maison central individuelle Figure 35; AGRÉGATION DE LA MOYENNE: distance et arbre Résumons notre façon d'opérer. Lutilisateur doit prendre plusieurs types de décisions. Il passe tout d'abord par une étape de codage pour extraire du dossier de travail un tableau de données. Il lui faut ensuite choisir une distance. Enfin, pour élaborer les classes successi- ves, il lui faut adopter une stratégie d'agrégation. Même au terme d'une introduction pourtant intuitive, nous voici déjà bien loin de la conception de l'»» informatique- magique». Vous avez des décisions importantes à prendre! L'ordinateur ne fait pas tout. La suite de ce livre éclairera les principaux points chauds sur le chemin de vos décisions res- ponsables. COMMENT LA VOIR HISTORIQUEMENT' 1.3. COMMENT LA VOIR HISTORIQUEMENT? 65 L'histoire de l'Humanité est parfois en liaison avec celle des passions humaines. Toutes les passions ont commandé le développement de l'Analysée des Données. Passion du pouvoir à l'origine de la Statistique, passion du jeu en Probabilités , passion des mathé- matiques en Statistique Mathématique . Entrons-nous aujourd'hui dans la seule passion du connaître? • Dans l'éthymologie du terme statistique , il y a état. A l'ori- gine, ce mot a désigné le comptage et l'inventaire des riches- ses de l'Etat; aussi bien en hommes , lorsqu'il s'agissait de par- tir en guerre , qu'en produits , lorsqu'il s'agissait de fixer l'impôt: André PIATIER écrit que la hauteur de la crue du Nil était un excellent indice de fertilité et elle servait à fixer le montant des impôts». Historiquement , la statistique a d'abord rempli la fonction de recensement et d'observatoire économique. • A la guerre et à l'impôt, il faut rajouter le jeu : c'est alors l'éclosion du calcul des probabilités aux XVe, XVIe et surtout XVlle siècle. Au XVIIIe siècle , BUFFON aura tenu deux rôles: poursuivre cette branche probabiliste - et il reste célèbre par son aiguille et la probabilité qu'a celle-ci de se poser en coupant la latte d'un parquet de largeur égale à la taille de l'aiguille - mais aussi être le premier à jouer un rôle dans l'histoire moderne de la statistique . Pour lui, il ne s ' agissait plus seulement de compter, mais également de décrire , de simplifier et de structu- rer, afin d ' aboutir à une représentation synthétique des classifi- cations: voir sa fameuse Histoire Naturelle. C'est ainsi que, dans les disciplines les plus diverses , la statistique moderne va naître, et non pas du tout dans une matière isolée . La démogra- phie s'organise pour créer des éléments de statistique mathé- matique, alors que l'astronomie , par le biais de la méthode des moindres carrés et de la loi normale à plusieurs dimensions, pose les premières bases de notre géométrie multidimension- nelle, c'est-à-dire de l'Analyse des Données . Nous sommes à la fin du XVIIIe et au début du XIX0 avec GAUSS , LAPLACE, LEGENDRE , MOIVRE... 192 QU'EST-CE QUE L'ANALYSE DES DONNÉES ? •--------------- ---------------------- i r l 42 ----------------------------------------------------------------------------- ^ '2 5 ? 1 -------------- ô W tt<^p %' C C J p m vR^ d} ^ ; ^I s- m m J N F û^ t' -----------I ------------- i2 26'' k o m o o û ô S 8> é W m n s- `dz Figure 20 : CLASSIFICATION SURCHARGÉE... COMMENT COMPARER FACTEURS ET CLASSES? F2 43': F4 ?5t ------------------- F4 35? F? 26? ---'----'1 F3 32/ FI 36!1 ----------------------- f 193 ... DES FACTEURS LES PLUS IMPORTANTS A CHAQUE NOEUD 224 QU'EST-CE QUE L'ANALYSE DES DONNÉES' B. QUE FAIRE EN TROIS JOURS Si vous préférez un stage dintroduction générale, prenez le premier des deux stages décrits ci-dessous. Si vous préférez voir moins de choses, mais aller plus à fond vers la prati- que du dépouillement, prenez le second de ces deux stages Dans les deux cas, tous renseignements à l'ADD.A.D. • INITIATION AUX ANALYSES DE DONNÉES En trois jours et sans supposer de connaissances préalables, ni statisti- que ni informatique, présentation intuitive et pratique des méthodes dAnalyse de Données On oriente cette introduction vers les questions pratiques de l'Analyse des Données: • quels types de problèmes peut-on traiter par lAnalyse des Données? • quel genre de résultats peut-on en attendre? • quels sont les dangers et les limites des différentes techniques? • comment l'utilisateur peut-il s'orienter dans l'emploi des différents mode les ? BUT DU STAGE: On peut exprimer le programme couvert à l'aide des mots-clefs suivants: - dossiers d'étude en analyse des données - extraction et gestion des données - codage et recodage des variables - types de tableaux en statistique'. contingence, mesure, nominatif, qualitatif, ordonné, préférence, logique, etc. - principales mesures' angles, variances, corrélations, Chi deux - principales méthodes: correspondances, analyses factorielles, analyse en composantes princi- pales, partitions (clusters, nuées dynamiques), arbres hiérarchiques, régression, discrimination, etc. - interprétation des résultats - Critique et autocritique des résultats: simulations, validité. On donnera une idée intuitive des techniques couvertes par les mots clefs ci-dessus, mais on fixera en grandeur réelle les pratiques et les potentialités des outils ainsi décrits. Pour ce faire, on alternera dans le stage quatre techni- ques pédagogiques: - Montage audiovisuel qui couvrira le programme fixé - Exercices commentés et gradués - Études de cas, non pas q, scolaires» mais «réels - Débats sur les besoins des participants PROGRAMME SOMMAIRE: 1 - Dossiers traitables • Quels types de problèmes l'Analyse des Données peut-elle faire avan- cer? • Quels sont les domaines qui échappent à l'Analyse des Données? • Lesquels lui sont spécifiques? GUIDE PÉDAGOGIQUE 225 2 - Gestion des données • Comment organiser le traitement des données? • l'aide apportée par l'informatique sera soulignée par études de cas 3 - Codage et recodage des données On insistera sur la question du codage des données quelle est la meilleure manière de traduire en nombres: continus? quali - tatifs? ordonnés? 4 - Critères pour élaborer un tableau On abordera explicitement la définition des critères que doit satisfaire un tableau avant d'être soumis aux techniques d'analyses des données. 5 - Choix des distances On décrira intuitivement et pratiquement plusieurs indices de ressem- blance entre objets, de mesures pour les données logiques et distances entre ensembles d'objets. On insistera pour montrer que ces choix relè- vent de la responsabilité de l'utilisateur. 6 - Représentation des tableaux On montrera intuitivement comment, en analyse des données, on repré- sente les tableaux: nuages de points, masses et distances... 7 - Réduction des données On décrira les différentes techniques de réduction des données: conti- nues élaboration d'axes factoriels et d'indices) et discontinues (cons- truction de classes et d'arbres). 8 - Résultats pour l 'utilisateur Comment interpréter une classification? une analyse factorielle? Com- ment lire et dépouiller les listages d'ordinateurs correspondants? 9 - L'analyse des données en dynamique On présentera les différentes stratégies qui permettent le retour criti- que sur un tableau de données (pondération, éléments supplémentai- res, arrangements) et sur le dossier (simulations, validités des résultats, régression, discrimination). REMARQUES'. Le stage est une introduction à l'Analyse des Données. Il parcourt tous les points signalés d'une manière extensive. Son style est donc très différent du stage suivant dont, au contraire, le programme sera moins étendu mais plus intensif. Pour les caractériser respectivement, on dira que le premier est un stage d'INFORMATION générale classique (un conférencier sur un sujet étendu), alors que le second est un stage de FORMATION PRATIQUE quasi- professionnel (un expert à plein temps encadre trois stagiaires sur un sujet plus limité mais où le résultat est pratique, professionnel et opérationnel) • PRATIQUE DE L'ANALYSE DES DONNÉES BUT DU STAGE: Par un entraînement pratique sur des données réelles et par une réflexion approfondie sur la variété des démarches, permettre aux stagiaires d'être en mesure, en fonction dun problème particulier, d'organiser un cheminement dans les étapes du dépouillement en Analyse des Données. L'admission se fait sur dossier de candidature. L'organisation par groupe de trois permet d'accepter tous les niveaux. 256 QU'EST-CE QUEL ANAL YSE DES DONNÉES' individus sur lesquels les variables sont relevées ! uploads/s1/ fenelon-1981-qu-x27-est-ce-que-l-x27-analyse-des-donnees.pdf