REVUE DE STATISTIQUE APPLIQUÉE P. THIONET Sur les sondages avec probabilités in
REVUE DE STATISTIQUE APPLIQUÉE P. THIONET Sur les sondages avec probabilités inégales Revue de statistique appliquée, tome 17, no 4 (1969), p. 5-44 <http://www.numdam.org/item?id=RSA_1969__17_4_5_0> © Société française de statistique, 1969, tous droits réservés. L’accès aux archives de la revue « Revue de statistique appliquée » (http://www. sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright. Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques http://www.numdam.org/ 5 SUR LES SONDAGES AVEC PROBABILITÉS INÉGALES P. THIONET INTRODUCTION Parmi les divers sujets traités dans la statistique la plus traditionnelle figurent les méthodes dont les statisticiens préconisent l’emploi pour cons- tituer des échantillons ; avec ces méthodes d’échantillonnage va bien entendu de pair l’utilisation des dits échantillons en vue d’en extraire des informa- tions valables sur les populations sondées. Un préjugé(l) - qu’il faut sans cesse combattre tant il est enraciné, - est que les "bons" échantillons seraient les échantillons "représentatifs" ; rien n’est moins vrai bien entendu. Toute personne désireuse d’étudier un échantillon des 38 000 communes de France devine bien qu’il ne faut pas le constituer avec 1 grande ville sur 100, 1 petite ville sur 100, 1 commune rurale sur 100. Sans parler des très grandes villes (dont on inclut la liste complète dans les échantillons) il est à peu près intuitif qu’un bon échantillon doit correspondre une proportion beaucoup plus élevée des villes que des bourgades, -et a fortiori que des villages. Bien entendu une théorie (un peu technique) justifie cette façon de faire. C’est ce qui est obtenu en fait au moyen de tirages au sort de communes avec des probabilités proportionnelles à leur population. --------------- (1) Il est vrai que les méthodes d’échantillonnage sont peu connues, non seulement des utilisateurs mais aussi de théoriciens de la statistique mathématique, qui souvent oublient leur existence. Dans beaucoup de problèmes (mais pas ici) il est sage de supposer les échantillons constitués d’éléments obtenus par tirages au sort indépendants, afin d’assimiler les valeurs -échantillons à des valeurs indépendantes (en probabilité) d’une variable aléatoire donnée. Il est alors naturel de convenir d’appeler "échantillon" un ensemble de n valeurs indépendantes d’une variable aléatoire donnée. Il est en revanche fâ- cheux qu’on puisse enseigner la chose comme suit : "En statistique, un échantillon désigne le système de n valeurs prises par une variable aléatoire au cours de n tirages indépendants ". Autrement dit nous nous étonnons qu’on puisse présenter un sens restreint du mot échantillon comme étant son seul sens correct. On laisse ainsi supposer que ce qui est d’usage dans beaucoup de chapitres de statistique (pour des raisons de facilité) serait la règle absolue (donc que le reste est erreur, pour peu que l’élève ait l’esprit dogmatique). Revue de Statistique Appliquée, 1969 - vol. XVII - N°4 6 Plus généralement, un "univers" étant partagé en "unités de sondage", on a besoin d’en extraire un échantillon par tirage au sort avec probabilités inégales. Les techniques courantes de tirage au sort ont ceci de fâcheux qu’elles n’excluent pas le cas où la même unité serait tirée 2 fois ou davan- tage ; et le fait se produit (bien sûr) d’autant plus souvent que les unités sont plus probables (plus grosses). Les ressources du bon sens sont, en cette affaire, insuffisantes à elles seules. a) Si l’on partage l’univers en strates et qu’on tire une unité de chaque strate, l’accident fâcheux ne peut plus se produire, mais on n’a plus assez de renseignements (avec un tel échantillon) pour évaluer les variances cféchan- tillonnage, c’est-à-dire mesurer les erreurs d’échantillonnage (tout "calcul d’erreur" suppose qu’on ait des informations sur les écarts entre données concernant les unités de sondage de la même strate). Si donc une strate fournit n unités échantillon, il est souhaitable, pour des raisons de "calculs de variance", d’avoir n = 2 au moins (et souvent même : n = 3). b) Si l’on a décidé de tirer n = 2 unités et que le sort fournisse 2 fois la même unité, le calcul d’erreurs ne sera donc pas possible pour les strates où cet accident s’est produit. En outre les échantillons de familles ou de personnes, qu’on tirerait ensuite des communes échantillons, seraient perturbés par cet accident. En effet : l’échantillonnage de communes est presque toujours le ler degré d’un sondage à plusieurs degrés de logements ou d’individus. S’il était prévu de tirer m personnes par commune échantillon, soit 2m au total, il faudra soit tirer 2m personnes de la seule commune obtenue , soit n’en tirer que m mais leur affecter un poids double (par exemple les représenter par 2 cartes perforées identiques dans le dépouillement). c) Si l’on devait tirer n = 3 unités et qu’on ait obtenu les unités A B B au lieu de A B C, on peut envisager de faire pour B seule ce qui vient d’être dit au § b) ci-dessus ; les deux procédés seraient corrects pour le dépouille- ment d’une enquête. Le second coûterait moins cher (m enquêtes de moins à faire) mais bien entendu informerait moins bien que le premier. En revanche les calculs d’erreur seraient perturbés ; et qu’ils aient été programmés pour un calculateur humain ou électronique, il faudrait to- talement les reprendre. d) Il semble donc assez tentant de s’arranger, d’une façon ou d’une autre, pour que l’accident redouté ne se produise pas. C’est même ce qui arrive presque fatalement si le tirage de l’échantillon est confié à un employé "intelligent". Or ces errements à la longue sont assez redoutables ; car (sans qu’on s’en doute) ils équivalent à modifier totalement les probabilités de tirage, donc ils conduisent à des échantillons systématiquement déformés . Il est facile de voir que, dans une strate, l’accident devrait arriver surtout aux unités les plus probables, c’est-à-dire aux communes les plus peuplées. En se débrouillant pour qu’on ne les tire pas 2 fois, l’employé trop intelligent réduit en fait leur probabilité de tirage, au profit des com- munes moins peuplées ; on finit à la longue par s’en apercevoir mais trop tard. Revue de Statistique Appliquée, 1969 - vol. XVII - W4 7 Nous arrivons à cette conclusion qu’en cette affaire une méthode scien- tifique, même un peu compliquée, sera préférable à la "débrouillardise" d’un agent. D’ailleurs quand le tirage au sort est confié aux soins des machines , le même problème est posé à un échelon plus élevé ; et la "débrouillardise" du chef du bureau d’échantillonnage sera au moins aussi pernicieuse que celle de son employé. Tous ceux qui (comme nous) ont eu à organiser des enquêtes régulières par sondage ont rencontré fatalement le problème ; beaucoup l’ont résolu par le mépris, estimant (avec quelques motifs) que l’erreur d’échantillonnage est bien moins sérieuse que les erreurs de relevé faites sur le terrain par les enquêteurs et les erreurs faites par les enquêtés (de bonne foi ou non). Nous allons voir en somme qu’il est possible d’éliminer (avec beaucoup de mathématique) un type d’erreurs assez négligeables : La mathématique ne peut pas grand’chose au contraire contre les erreurs les plus massives. Ce fait est assez déprimant, il faut le reconnaître. Quoi qu’il en soit, nous essaierons donc ici de faire le point sur de nombreuses recherches mathématiques dont le but est, en somme, d’éliminer une petite erreur d’échantillonnage. Comme nous le signalons dans notre Communication à la Société de Statistique de Paris du 16 Novembre 1966 [1] ] il y a une disproportion incon- testable entre ce but assez mince et ces moyens fort puissants. Dans un "speech" qu’il prononçait récemment aux Etats-Unis le professeur COCHRAN, actuel président de l’Institut International de Statistique, n’hésitait pas à choisir le problème des sondages avec probabilités inégales comme le type même du cas où (comme il dit, avec humour) l’on fait "trop de statistique mathématique" [2 ](1). A son avis, il eut été raisonnable que 3 ou 4 personnes étudient cette question (dans différents pays) ; or on en a déjà dénombré (pa- rait-il) 34 ; et chaque fois qu’il reçoit un nouveau fascicule d’une publication statistique, il appréhende d’y trouver une 35ème méthode. Plutôt que de lui causer cette peine, nous nous efforcerons ici de mettre un peu d’ordre dans nos lectures, qui (de toute façon) n’ont pas un caractère exhaustif. La première difficulté que nous rencontrerons est le choix d’un ordre à peu près cohérent pour présenter les différents aspects d’une question assez embrouillée. 1 - Les procédés d’échantillonnage Ils sont relativement faciles à exposer et peuvent intéresser un public assez large ; nous commencerons donc par là. Nous distinguerons : - ceux qui dérivent de l’urne de Bernoulli, - le sondage de Hajek (qui dérive des urnes de Poisson), - le sondage systématique, - puis le tirage d’échantillons tournants (problèmes de Fellegi). Enfin (parce qu’ils sont récents) parmi bien d’autres, les procédés de Hanurav dont l’intérêt théorique dépasse la portée pratique. --------------- (1) Espérons qu’aucun uploads/Geographie/ rsa-1969-17-4-5-0.pdf
Documents similaires










-
25
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 12, 2022
- Catégorie Geography / Geogra...
- Langue French
- Taille du fichier 2.8175MB