Chapitre 1 : Théorie de l’échantillonnage 3. Distribution d’échantillonnage Con

Chapitre 1 : Théorie de l’échantillonnage 3. Distribution d’échantillonnage Considérons un échantillon aléatoire qui est utilisé pour faire une inférence sur certaines caractéristiques de la population, telle que la moyenne de la population,  en utilisant une statistique de l’échantillon, comme la moyenne de l’échantillon ̅. On constate que chaque échantillon a différentes valeurs observées, et donc différentes moyennes de l’échantillon. La distribution d’échantillonnage de la moyenne de l’échantillon est la distribution de probabilité des statistiques des échantillons obtenues de tous les échantillons possible ayant le même nombre d’observation issus de la population. 3.1. Illustration de la distribution d’échantillonnage Notons  le poids d'un individu, supposé déterministe, et imaginons que notre population soit constituée de quatre individus ( = 4) : Pierre, Paul, Jacques et Jean. On suppose que leurs poids exprimés en kilogrammes sont respectivement égaux à :  = 65 ;   = 73 ;   = 82 ;  = 68 La moyenne du poids (poids moyen) dans la population est donnée par :  = 65 + 73 + 82 + 68 4 = 72 Si l'on souhaite constituer un échantillon aléatoire de taille = 2 (sans remise), il convient de tirer deux individus parmi les quatre individus de la population et d'observer leur poids moyen. Échantillons couples de poids moyenne empirique Probabilités (Pierre, Jean) (65; 73) 69 1/6 (Pierre, Paul) (65; 82) 73,5 1/6 (Pierre, Jacques) (65; 68) 66,5 1/6 (Jean, Paul) (73; 82) 77,5 1/6 (Jean, Jacques) (73; 68) 70,5 1/6 (Paul, Jacques) (82; 68) 75 1/6 On obtient un total de 06 échantillons avec une probabilité de 1/6 d’être sélectionné pour chacun. En fonction de l’échantillon choisi, la moyenne empirique se présente comme une variable aléatoire. Dans ce cas il sera possible de présenter sa distribution de probabilité ou la distribution d’échantillonnage pour les différentes moyennes empiriques de la population (les deux dernières colonnes du tableau précédent). Le tableau suivant présente des résultats similaires pour un échantillon de taille = 3 issu de la même population que précédemment. Il faut noter que les moyennes sont concentrées dans un champ beaucoup plus proche de la moyenne de la population  = 72. On trouvera ceci vrai – la distribution d’échantillonnage devient concentrée autour de la moyenne de la population lorsque la taille de l’échantillon augmente. Ce résultat important fournit une base importante pour l’inférence statistique. échantillons couples de poids moyennes empiriques probabilités (Pierre, Jean, Paul) (65; 73; 82) 73,3333333 0,25 (Pierre, Jean, Jacques) (65; 73; 68) 68,6666667 0,25 (Jean, Paul, Jacques) (73; 82; 68) 74,3333333 0,25 (Pierre, Paul Jacques) (65; 82; 68) 71,6666667 0,25 Dans ces exemples, il a été possible de définir tous les échantillons possibles étant donné la taille de la population et de l’échantillon. Et pour chaque échantillon possible, la moyenne empirique a été calculée, et la distribution de probabilité a été construite. De ces exemples simples, on voit que lorsque la taille de l’échantillon devient grande, la distribution de la moyenne empirique – distribution d’échantillonnage – devient plus concentrée autour de la moyenne de la population. Dans la plupart des travaux statistiques, les populations sont très grandes, et il n’est souvent pas rationnel de construire la distribution de tous les échantillons possibles d’une taille donnée. Mais en utilisant ce qu’on a appris sur les variables aléatoires, on peut montrer que les distributions d’échantillonnage pour les échantillons de toutes populations ont des caractéristiques similaires que celles qu’on a montré dans les exemples simples de population discrète. 3.2. Distribution d’échantillonnage de la moyenne de l’échantillon (empirique) Soit un échantillon aléatoire de observations issu d’une très grande population de moyenne  et de variance ; les observations d’échantillon sont les variables !", ! , ⋯!. Avant que l’échantillon ne soit observé, il y a une incertitude par rapport aux résultats. Cette incertitude est modélisé en considérant les observations individuelles comme des variables aléatoires d’une population de moyenne  et de variance . Moyenne de l’échantillon Soient les variables aléatoires !", ! , ⋯! d’un échantillon issu d’une population. La valeur de la moyenne de l’échantillon de ces variables aléatoires est définie par ! % = 1 ' !  (" = 1 (!" + ! + ⋯+ !) Considérons la distribution d’échantillonnage de la variable ! %. À ce point, on ne peut pas déterminer la forme de la distribution d’échantillonnage, mais on peut déterminer la moyenne et la variance de la distribution d’échantillonnage à partir des définitions basiques vues dans les cours de probabilités. Moyenne de la moyenne de l’échantillon (empirique) Étant une variable aléatoire, cette moyenne n’est rien d’autre que l’espérance mathématique de ! %. )*! %+ = ) ,1 ' !  (" - = ) .1 (!" + ! + ⋯+ !)/ =  =  L’espérance mathématique d’une combinaison linéaire de variables aléatoires est une combinaison linéaire des espérances Ainsi, l’espérance mathématique de la moyenne empirique ou de l’échantillon est la moyenne de la population. Si les échantillons de n observations aléatoires sont indépendamment et identiquement tirés d’une population, alors lorsque le nombre d’échantillons devient grand, la moyenne des moyennes de l’échantillon approche la vraie valeur de la moyenne de la population. Une seule moyenne de l’échantillon peut être plus grande ou plus petite que la moyenne de la population. Cependant, en moyenne, il n’y a pas de raison d’espérer la moyenne de l’échantillon plus grand ou plus petit que la moyenne de la population. Exemple : Dans l’exemple des échantillons de 2 individus sur 4, on peut calculer l’espérance mathématique de la variable aléatoire comme suit : )*! %+ = ' ̅0(̅) = (69) 21 63 + (73.5) 21 63 + ⋯+ (75) 21 63 = 72 Ce résultat donne la moyenne de la population . Variance de la moyenne de l’échantillon (empirique) Maintenant que nous avions établit que la distribution des moyennes de l’échantillon est concentrée autour de la moyenne de la population, on souhaite déterminer la variance de la distribution d’échantillonnage des moyennes. Si la population est très grande par rapport à la taille de l’échantillon, alors les distributions des observations individuelles d’échantillons aléatoires indépendants sont les mêmes. On a vu en calcul de probabilité que la variance d’une combinaison linéaire de variables aléatoires indépendantes est la somme des coefficients linéaires au carrée multiplié par la variance des variables aléatoires. Il s’en suit que : 567*! %+ = 567 ,1 ' !  (" - = 567 .21 !" + 1 ! + ⋯+ 1 !3/ = ' 21 3  (" = = La variance de la distribution d’échantillonnage de ! % décroit lorsque la taille de l’échantillon augmente. En effet, cela veut dire que les échantillons de grandes tailles entrainent beaucoup plus de distributions d’échantillonnage concentrées. L’exemple simple dans la section précédente démontre ce résultat. Ainsi, les grands échantillons donnent de plus grande certitude par rapport à l’inférence de la moyenne de la population. La variance de la moyenne de l’échantillon est notée : 8̅ et l’écart type correspondant est donné par : 8̅ = √ Cela correspond au cas où la population mère est finie et l’échantillon est non exhaustif (tirage avec remise) ou si la population est infinie, que l’échantillon soit ou non exhaustif. Lorsque la taille de l’échantillon n’est pas une petite fraction de la taille de population , alors les membres individuels de l’échantillon ne sont pas distribués indépendamment. On peut montrer dans ce cas que la variance de la moyenne de l’échantillon est comme suit : 567(! %) =  −  −1 Où le facteur ;< ;<" est appelé facteur d’exhaustivité ou facteur de correction de la population finie. Ce cas s’applique lorsque la population mère est finie (avec 1 20 n N > ) et l’échantillon exhaustif (tirage sans remise). Nous venons de développer les expressions de la moyenne et la variance de la distribution d’échantillonnage de ! %. Pour beaucoup d’applications, la moyenne et la variance définissent la distribution d’échantillonnage. On verra qu’avec des analyses additionnelles, ces résultats peuvent devenir très puissants pour certaines applications pratiques. On analyse d’abord ces résultats sous l’hypothèse selon laquelle la population sous-jacente a une distribution de probabilité normale. Ensuite, nous explorons la distribution d’échantillonnage de la moyenne d’échantillon lorsque la population sous-jacente n’a pas une distribution normale. Ce second cas va fournir des résultats puissants pour beaucoup d’applications pratiques en économie et en gestion. 4. Théorème central limite ou de la limite centrée Un cas particulier Soit , variables aléatoires indépendantes suivant toutes la même loi normale (, ). Pour tout , on a )(!) = . Donc )(!" + ! + ⋯+ !) = .  ⟹) >' !  (" ? = .  Si on pose que ̅ = "  ∑ !  (" ⟹)(̅) =  De même, Pour tout , on a . Les variables aléatoires étant indépendantes, 5(̅) = ⟹ 8̅ = √ Les variables aléatoires étant indépendantes et suivant une loi normale, leur somme suit une loi normale et ̅ = "  ∑ !  (" suit également uploads/Geographie/ statistique-descisionelle-1.pdf

  • 28
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager