M2 Statistique & Économétrie Cours de sondage Chapitres 1 à 51 Yves Aragon, Cam

M2 Statistique & Économétrie Cours de sondage Chapitres 1 à 51 Yves Aragon, Camelia Goga et Anne Ruiz-Gazen 14 octobre 2009 1. Il est possible que ce support de cours de niveau Master contienne un certain nombre de coquilles. Merci de nous les signaler en envoyant un email à ruiz@cict.fr 2 Chapitre 1 Introduction aux sondages Cette introduction pose les problèmes de base auxquels répondent les techniques de sondage. Nous introduisons la notion d’aléatoire propre aux sondages et un certain nombre de définitions utiles pour clarifier bon nombre de situations concrètes. Nous présentons aussi la bibliographie et quelques sites internet utiles. 1.1 But d’un sondage Ramené à sa dimension la plus élémentaire, le but d’un sondage est d’estimer le total ou la moyenne d’une variable d’étude y sur une population U finie de taille N. Par exemple, le nombre de chômeurs dans une région, le montant moyen des dépenses en matériel informatique des ménages d’une ville. Notons yk la valeur de la variable d’étude y pour l’individu ou unité k de cette population. On note respectivement tyU et yU = 1/NtyU le total et la moyenne de y : tyU = N X k=1 yk abrégé conventionnellement en X U yk et yU = 1 N X U yk. On appelle paramètre d’intérêt, la fonction des yk, k ∈U qu’on veut estimer, par exemple tyU ou yU. On est souvent amené à estimer d’autres paramètres que le total d’une variable. Par exemple un revenu par tête R dans une région est un rapport de totaux ou ratio : R = X U yk X U zk où yk et zk désignent respectivement le revenu et la taille du ménage k de la population U des ménages de la région. Si la taille X U zk, de la population n’est pas connue, l’estimation de yU revient à l’esti- mation d’un ratio. Plan de sondage. Un plan de sondage est un mécanisme aléatoire de tirage des individus ou unités de U qui formeront l’échantillon. Ce cours s’intéresse notamment au choix du plan de sondage. A chaque application d’un plan de sondage sur une population on doit obtenir un échantillon diffé- rent. Si la collecte de l’échantillon est faite suivant un plan de sondage 1 on obtient à partir de l’échantillon : (1) une estimation du paramètre d’intérêt, (2) une estimation de la variance de l’estimateur du paramètre d’intérêt. 1. Il y a d’autres façons de collecter de l’information, nous en dirons quelques mots à la fin du chapitre. 3 4 CHAPITRE 1. INTRODUCTION AUX SONDAGES C’est la démarche probabiliste qui permet d’obtenir une mesure de précision de l’estimation. L’aspect aléatoire est donc crucial. Un sondage qui se limite à fournir une estimation de total ou de moyenne, sans donner une estimation de l’écart-type de cette estimation n’est pas scientifiquement acceptable. C’est malheureusement le cas de la plupart des sondages publiés dans la presse. Si l’on pouvait mesurer y sur chaque individu de la population on ne ferait pas un sondage mais un recen- sement et il n’y aurait plus de problème d’estimation. Seulement il est souvent très coûteux, peu réaliste, voire impossible de mesurer la variable d’étude sur toute la population et on doit donc se contenter de l’observation de y sur un échantillon aléatoire. Si dans une situation particulière, recensement et sondage sont tous deux possibles, on choisit l’un plu- tôt que l’autre suivant : la précision exigée dans la connaissance du paramètre d’intérêt, la nature de la décision qui sera prise d’après cette connaissance, le partage coût/imprécision permis par le problème, le temps dont on dispose pour fournir le résultat. Ainsi, beaucoup de résultats statistiques relatifs aux entre- prises (chiffre d’affaire, niveau des commandes...) ne sont connus exhaustivement que longtemps après la période de temps concernée. Des résultats basés sur un sondage et des prévisions sont donc souvent publiés avant que les données exhaustives ne soient disponibles. Résumé. Un plan de sondage est un mécanisme probabiliste qui permet d’observer une variable y sur un échantillon s de la population U dont on veut estimer une caractéristique (par exemple la moyenne de y sur U). La méthode d’estimation de la caractéristique doit fournir : – un estimateur de la caractéristique, – la variance de cet estimateur, – des estimations basées sur s de ces deux quantités. En pratique, les définitions de population, unités ... ne sont pas toujours limpides ou allant de soi. De plus le mécanisme qui permet d’accéder aux individus est souvent complexe. La fabrication de plans de sondage adaptés à l’organisation et à l’accessibilité de la population par l’en- quête est une tâche importante et délicate. Un certain nombre de définitions permettent d’identifier les situations qu’on rencontre. 1.2 Vocabulaire des sondages 1.2.1 Vocabulaire Unité d’observation (observation unit, unit of interest). Objet sur lequel on fait une mesure. C’est l’unité de base observée. Pour des populations humaines c’est un individu. Population cible ou champ d’une enquête (target population). Collection complète des unités d’obser- vations qu’on veut étudier. Il faut la définir soigneusement pour chaque étude. Ce n’est pas toujours évident. Population échantillonnée (sampled population). La liste de toutes les unités d’observation qui pour- raient être choisies pour former un échantillon. Elle ne coïncide pas toujours avec la population cible. Échantillon (sample) Un sous-ensemble de la population échantillonnée. Unité d’échantillonnage (sampling unit). Les unités susceptibles d’être tirées. Base de sondage (sampling frame). Une liste des unités d’échantillonnage. Par exemple, un annuaire par nom, une carte où sont situées des exploitations agricoles, peuvent être des bases de sondage. La liste des unités d’échantillonnage a nécessairement une organisation : par nom, par ancienneté 1.2. VOCABULAIRE DES SONDAGES 5 par taille... et il est utile de noter qu’une base de sondage est une organisation de la population échantillonnée. Il arrive qu’on ait plusieurs bases de sondage pour un même problème. Il arrive aussi qu’on n’ait pas de base de sondage pour une population, cas par exemple d’une population d’animaux sauvages. Défaut de couverture (noncoverage). Le fait qu’il existe des individus de la population cible qui ne sont pas dans la base de sondage. Biais de sélection (selection bias). Le biais qui survient quand une partie de la population cible n’est pas dans la population échantillonnée. Par exemple, si on veut étudier les revenus des ménages d’une commune et qu’on oublie les travailleurs migrants, on va trouver des revenus plus élevés qu’ils ne le sont en vérité. Causes classiques de ce biais : Nonréponse, recours au volontariat pour obtenir des réponses ... Biais de mesure Il survient quand l’instrument de mesure à tendance à donner une valeur qui s’écarte de la vraie mesure dans une direction particulière. Par exemple, dans des sondages sur la végé- tation, on découpe la surface en parcelles et on choisit un échantillon de parcelles. On compte le nombre de plantes dans chaque parcelle. Que faire des plantes en bordure de parcelle ? Si un observateur a tendance à les compter toutes, il fournira une estimation du nombre total de plantes supérieur à la réalité. Autre exemple : les gens peuvent ne pas dire la réalité (sous déclaration de revenus, d’ âge), une question peut être mal comprise. 1.2.2 Exercice Un certain nombre de situations sont décrites dans les exemples ci-dessous. Dans chaque cas décrire la population cible, la base de sondage, la population échantillonnée, les unités d’échantillonnage, et les unités d’observation. Architectes Un échantillon de 8 architectes ou cabinets d’architectes doit être choisi dans une ville parmi les 14 qui y exercent. Pour choisir cet échantillon, chaque architecte est contacté par télé- phone dans l’ordre d’apparition dans l’annuaire des Pages jaunes. Les 8 premiers qui ont accepté de répondre constituent l’échantillon. Livres Pour estimer le nombre de livres qui ont besoin d’être reliés, un bibliothécaire tire, dans une table de nombres au hasard, 100 emplacements de livres sur les rayonnages. Il va ensuite en chacun de ces emplacements et note si le livre qui s’y trouve a besoin d’être relié ou non. Presse Environ 16 500 femmes ont retourné le questionnaire "Healthy Women Survey" inséré dans le numéro de sept. 1992 de la revue "Prevention". Le numéro de mai 93 de cette revue rendait compte du sondage en écrivant : "92% de nos lectrices évaluent leur santé comme excellente, très bonne ou bonne." Parfois on choisit les individus interrogés sans recourir à un mécanisme probabiliste. Il est clair que, dans ce cas, on ne peut rien dire de la précision des estimations fabriquées après une telle collecte. Exemples de méthodes non probabilistes A l’opposé du sondage aléatoire qui donne un échantillon probabiliste il existe des méthodes non probabilistes. – Méthode des unités type. On a observé par exemple que telle commune vote comme la France et donc on va interroger les habitants de la commune sur leurs choix pour la prochaine élection. On attribue à la France en général les choix de cette commune. Ceci n’a évidemment aucune valeur scientifique et d’ailleurs on ne sait pas mesurer la précision d’une telle extrapolation. – Échantillonnage au jugé. On prélève un uploads/Geographie/ chap1a5-camelia.pdf

  • 30
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager