I Initiation aux I Traitements statistiques ^ Méthodes, méthodolosie Brigitte E

I Initiation aux I Traitements statistiques ^ Méthodes, méthodolosie Brigitte ESCOFIER, Jérôme PAGES Initiation aux traitements statistiques méthodes, méthodologie Presses Universitaires de Rennes Collection Didact mathématiques A paraître : Thierry FOUCART, L'analyse des données, méthodes et études de cas, septembre 1997. Le fichier des d o n n é e s utilisé dans cet ouvrage est disponible aux Presses Universitaires de Rennes (adresse ci-dessous) sur simple demande a c c o m p a g n é e d'une enveloppe affranchie portant l'adresse du demandeur, (fichier ASCII sur disquette) © PRESSES UNTVERsnAiREs DE RENNES UHB Rennes 2 - Campus de La Harpe 2, rue du Doyen Denis-Leroy 35044 Rennes Dépôt légal : 1" semestre 1997 ISBN .-2-86847-231-1 Avant-propos Objectif général Ce livre est organisé autour du traitement statistique d'un fichier de données réel, d'une taille assez grande mais tout à fait courante : les notes obtenues au bac et pendant leur année scolaire par environ 1000 élèves de classe terminale scientifique, dite alors terminale C. Au travers du traitement de ce fichier, l'objectif est de présenter une culture de base de statistique opérationnelle, culture dans laquelle on peut distinguer deux composantes : • un ensemble d'outils statistiques, mettant en œuvre des notions simples mais la plupart du temps suffisantes ; • une méthodologie, terme à la fois vague et évocateur qui inclut la façon d'organiser les questions et les traitements statistiques et dont une forme concrète est un guide d'étude d'un fichier de données numériques. A qui s'adresse ce livre ? Le public visé est assez large : le contenu du livre est, pour l'essentiel, accessible sans formation scientifique particulière, par exemple à des bacheliers littéraires. Dans cet esprit, nous avons restreint autant que faire se peut le recours au formalisme mathématique et largement commenté les inévitables « formules ». Ce livre doit rendre des services : • aux étudiants en sciences humaines, sciences expérimentales, agronomie, gestion, commerce, etc. Cet ouvrage ne correspond pas au programme d'un cursus particulier, mais il aborde les questions de base qui constituent le cœur de la plupart des programmes de statistique qui s'adressent à des non-mathématiciens. L'étudiant y trouvera une présentation intuitive mais rigoureuse de ces questions, la plupart du temps absente des présentations usuelles plus formalisées. • aux enseignants ayant en charge un cours de statistique ; les présentations et les exemples originaux de ce livre ont été mis au point pour « faire passer » bon nombre de notions réputées difficiles. En particulier, cet ouvrage devrait intéresser les professeurs de mathématiques de l'enseignement secondaire confrontés à l'introduction de la statistique dans les programmes. • aux praticiens qui veulent s'initier à la pratique de la statistique parce qu'ils doivent manier des fichiers de données et/ou interpréter (et critiquer) des résultats statistiques. Ils trouveront un exemple de fichier réel relativement complexe ; ce fichier n'a pas été taillé spécialement pour mettre en valeur les méthodes et son traitement fait apparaître des problèmes dont la résolution nécessite une attitude pragmatique - rarement décrite dans les livres - pour raisonner des choix quelquefois empiriques. Démarche A chaque étape, nous introduisons d'abord une question ou un problème puis différents moyens pour y répondre. On illustre ainsi de façon naturelle quand et comment employer 7 B. Escofier e t J . Pages Initiatton aux trartements statistiques les outils statistiques de base. Lorsque plusieurs outils sont utilisables, nous les appliquons systématiquement au fichier des notes : la confrontation de leurs résultats permet de montrer, dans un contexte réel bien précis, leurs intérêts respectifs et leurs limites. Tous les outils statistiques existants ne sont pas présentés. Nous avons choisi ceux qui nous paraissent devoir être le plus fréquemment employés dans l'étude courante de données ; ils sont pour la plupart assez simples. La présentation de ces outils n'est pas toujours classique : elle a été en partie repensée, à partir de notre expérience d'enseignement et de traitement des données, en se référant toujours aux questions auxquelles ils permettent de répondre. Au-delà des outils, ce livre décrit une méthodologie pour l'étude statistique d'un fichier de données numériques. Son ambition est d'aider un novice en la matière à aborder ces fichiers et même de servir de guide à un utilisateur plus expérimenté. En particulier, de ce point de vue, l'accent est mis sur les premières étapes de l'étude d'un fichier, étapes trop souvent ignorées ou éludées dans les ouvrages classiques : la vérification des données, l'étude et la prise en compte des données manquantes (que beaucoup de logiciels traitent avec des méthodes souvent non précisées et qui peuvent se révéler inadaptées), la recherche et la prise en compte d'éléments remarquables ou "outliers". Insistons sur l'état d'esprit qui doit accompagner cette méthodologie : avoir l'esprit toujours éveillé, critique et interrogateur devant les données, ne jamais conclure à partir des seuls chiffres, mais en conjuguant résultats statistiques et réflexions b a s é e s sur des connaissances externes aux données. Il n'est pas inutile de rappeler que la réflexion est au moins aussi importante que le calcul d'indices ou la production de graphiques. Trois parties Dans la première partie, les techniques statistiques sont introduites non pas dans l'ordre classiquement rencontré dans les ouvrages, mais au moment où elles sont utiles dans l'étude du fichier des notes. Ce faisant, le pari est de faire coïncider un traitement de données réaliste et une présentation progressive des techniques ; à quelques exceptions près, qui n'altèrent en rien l'esprit du livre, cette démarche s'est avérée possible. La seconde partie est consacrée à la mise en évidence d'éléments remarquables (valeurs, individus, variables), composante essentielle de la description d'un fichier. En pratique, cette mise en évidence intervient très tôt dans une étude et d'ailleurs nous en mentionnons plusieurs aspects dans la première partie. Mais sa présentation systématique ne pouvait intervenir qu'après la première partie. La troisième partie comporte 11 fiches techniques, chacune consacrée à l'un des thèmes essentiels de l'analyse statistique d'un fichier. Ces thèmes sont bien sûr abordés dans la première partie ; mais la présentation des fiches, outre son caractère autonome adapté à une consultation ponctuelle, comprend des aspects techniques dont la présence tout au long de la première partie en aurait rompu le fil directeur. En particulier, ces fiches sont l'occasion d'établir quelques ponts entre la démarche descriptive et la démarche inférentielle classique. Enfin, il nous est agréable de remercier ici Louise-Marie Dousselin. Jean-Pierre Escofier, Yvette Grelet, Marie-Odile Lebeaux et Annie Morin qui ont accepté de relire tout ou partie du manuscrit. ) Sommaire Partie 1 Traitement d'un fichier de notes Chapitre 1. Description des données étudiées Chapitre 2. Objectifs de l'étude 2.1 De l'intérêt de préciser des objectifs 19 2.2 Quelques questions préalables (non indépendantes) 19 Chapitre 3. Premières vérifications des d o n n é e s 3.1 Principe presque absolu : les fichiers ne sont jamais propres 21 3.2 Mauvaise lecture du fichier 21 3.3 Quelques erreurs classiques 23 3.4 Détection de valeurs aberrantes 24 3.5 Bilan des valeurs aberrantes 24 3.6 Cerner le problème de chaque valeur aberrante 24 3.7 Corriger, estimer une valeur, supprimer un individu 25 3.8 Que faire s'il y a beaucoup de valeurs aberrantes ? 26 3.9 Grosses erreurs et petites erreurs 27 3.10 Quelques autres types d'erreurs 28 3.11 Bilan-résumé sur la recherche d'erreurs 28 Chapitre 4. D o n n é e s manquantes 4.1 Remarques préliminaires sur le codage des d o n n é e s manquantes 29 4.2 Bilan des d o n n é e s manquantes 30 4.3 Emde des d o n n é e s manquantes à travers les individus ~ 32 4.4 Répartition des 83 élèves incomplets en 4 groupes homogènes 33 4.5 Groupe des f a n t ô m e s 34 4.6 Groupe des 15 élèves avec bac incomplet 34 4.7 Groupe des 13 élèves qui n'ont de notes qu'au bac seulement 36 4.8 Groupe des élèves avec quelques valeurs manquantes 37 4.9 Conclusion 38 4.10 Bilan-résumé sur les d o n n é e s manquantes 24 Chapitre 5. Description d'un petit tableau de d o n n é e s : les 15 élèves avec bac incomplet 5.1 Présentation ordonnée d'un tableau 41 5.2 Représentation axiale d'une variable quantitative 42 5.3 Représentation graphique de deux variables quantitatives sur un plan 43 Chapitre 6. Etude d'une variable qualitative : répartition des élèves dans les lycées 6.1 Tri à plat 45 6.2 Diagramme en bâtons triés par effectif décroissant 45 6.3 Le regroupement, moyen efficace de description des d o n n é e s 46 6.4 Diagramme circulaire 46 9 B. Escofier ef J . Pages Initiation aux traHements statistiques Chapitre 7. Etude de variables quantitatives : répartition des notes 7.1 Variable discrète ; diagramme en b â t o n s 49 7.2 Variable continue ou discrète ; histogramme 51 7.3 Moyennes des notes 55 7.4 Quelques notations utiles 57 7.5 Maximum, minimum, étendue 58 7.6 Dispersion autour de la moyenne : é c a n absolu moyen, écart-type 59 7.7 Boîte de uploads/Litterature/ didact-statistique-escofier-b-pages-j-initiation-aux-traitements-statistiques-methode-methodologies-presses-universitaires-de-rennes-1997.pdf

  • 42
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager