Fiche statistique Fiche statistique n° 2. Les statistiques descriptives de base
Fiche statistique Fiche statistique n° 2. Les statistiques descriptives de base suite : variance, écart-type, dispersion Silvy Laporte Unité de pharmacologie clinique, Groupe de recherche sur la thrombose (EA3065), CHU Saint-Étienne Bellevue, Saint-Étienne, France D ans la fiche n° 1 (Médecine Thé- rapeutique ; Vol. 10, n° 3, mai- juin 2004), nous avions abordé les notions de moyennes et médianes, connues sous le nom de paramètres de tendance centrale. Nous allons aborder dans cette deuxième fiche la notion de dispersion autour de la ten- dance centrale. Pour ce faire, plu- sieurs solutions étaient possibles : • Faire un lexique avec toutes les définitions scolaires essentielles pour rentrer dans le vif du sujet, définitions aussi précises que repoussantes, ne permettant pas de séduire le clinicien dans sa formation à l’interprétation des statistiques. • Donner les formules complètes sans commentaire afin que chacun se fasse son opinion sur l’utilité de l’indice calculé compte tenu des élé- ments utilisés dans le calcul. On inté- resserait ici une partie encore plus infime du public. • Tenter, dans la mesure du possi- ble pour un statisticien, d’être plus littéraire sur les définitions et formules afin de vous convaincre de la simpli- cité et de l’utilité de ces paramètres dans l’interprétation des résultats des études cliniques. Compte tenu des fortes insistances du rédacteur en chef, nous avons opté pour la dernière solution. Pour une lecture optimale de cette fiche, il est judicieux de lire tout d’abord la fiche n° 1. Nous utiliserons d’ailleurs le même tableau de don- nées : il s’agissait d’une cohorte pros- pective ayant inclus 1 000 patients présentant un contrôle glycémique perturbé (HbA1C supérieur à 6,5 %). Tous les patients ont été traités pour une durée de 6 mois avec un nouvel antidiabétique oral. Les données concernant cette cohorte et les résul- tats à 1 an sont résumés tableau 1. La notion de dispersion Retour à l’école une fois de plus. Deux élèves de la même classe de 3e comparent leur moyenne générale : tous les deux ont 10/20 de moyenne (coefficient 1 pour toutes les matières). Les deux élèves sont donc tout à fait similaires. On peut même regarder leur médiane : idem, elle est de 10 aussi. Les deux élèves ont le même espoir de passage en seconde. Pour autant, si on regarde les notes de plus près, l’élève X a 1 note de 2/20, 9 notes de 8/20, 9 notes de 12/20 et 1 mt Tirés à part : S. Laporte mt, vol. 11, n° 2, mars-avril 2005 117 note de 18/20, l’élève Y a 10 notes de 2/20 et 10 notes de 18/20 : ces élèves sont bien différents ! La moyenne et la médiane ne permettent pas de nous donner cette informa- tion pourtant non négligeable, ce n’est d’ailleurs pas leur fonction. Il nous faut alors d’autres paramètres : on pour- rait regarder le minimum et le maximum, mais là aussi on reste sur notre faim, 2 et 18 chez les 2 élèves. Pourtant, les deux élèves sont foncièrement différents : l’élève X est plutôt stable, assez constant, peu « variable » d’une matière à l’autre, avec des notes peu « dispersées » autour de la moyenne. À l’inverse, l’élève Y présente des notes très différentes, très « variables », très dispersées autour de la moyenne. Afin d’appréhender la notion de dispersion, ce cas simple est transposable à votre patient traité par AVK au long cours en prévention secondaire d’événements throm- boemboliques. Depuis un an, son INR moyen est de 2,6. Est-il pour autant bien soigné, avec une cible bien atteinte ? La moyenne ne permet pas de répondre, et la question ici coule de source : « Est-il stable autour de 2,6 ? » Par cette question de clinicien éclairé, vous abor- dez la question statistique suivante : « Quelle est la valeur de l’écart-type ? » ou « Le patient est-il en général proche de 2,6 ou loin de 2,6 ? ». Seul le vocabulaire est différent. On entend ainsi par variabilité ou dispersion toutes ces notions d’écart par rapport à une valeur centrale. Il s’agit de termes généraux, ne correspondant pas à un paramètre en particulier. Les paramètres usuels de dispersion : l’écart-type, la variance, le coefficient de variation Dans le tableau 1, l’âge moyen est de 63,4 ans, com- plété par une valeur de 12,2 ans. Cette valeur, qui s’exprime dans la même unité que la moyenne, représente l’écart-type. Si on voulait transcrire grossièrement ce que cela signifie, c’est l’écart de toutes les valeurs à la moyenne. Imaginons cependant un cas simple à calculer avec 5 valeurs : 30, 30, 40, 40 et 60. La moyenne est de 40 ans (30 + 30 + 40 + 40 + 60 / 5). Pour savoir si la population étudiée est relativement homogène, il est nécessaire d’évaluer l’écart des valeurs individuelles à la moyenne, et d’en faire la somme pour avoir un indice parlant, voire même d’évaluer la moyenne de ces écarts. Ici la somme des écarts vaut (30 – 40) + (30 – 40) + (40 – 40) + (40 – 40) + (60 – 40) soit (– 10) + (– 10) + 0 + 0 + 20 = 0. Et oui, la somme fait 0 ! Cela ne signifie pas que la dispersion est nulle, c’est simplement une propriété mathématique de la moyenne : elle est exactement au centre des valeurs, et la somme des écarts de toutes les valeurs à la moyenne est toujours nulle, les écarts positifs compensant exactement les écarts négatifs. Il faut donc trouver une astuce mathématique pour construire un paramètre basé sur le même principe : on pourrait prendre les valeurs absolues, mais ce n’est pas très commode à utiliser ; on a alors choisi d’utiliser le carré de ces écarts afin de ne plus avoir les écarts positifs qui compensent les écarts négatifs. Ici on aurait donc (– 10)2 + (– 10)2 + 02 + 02+ 202. La moyenne de ces écarts est donc 100 + 100 + 0 + 0 + 400 / 5 = 600/5 = 120. Vous venez ici de calculer une variance (qui correspond en bon français à la moyenne des carrés des écarts à la moyenne). Atten- tion à la confusion, la variance, ce n’est rien de plus qu’une moyenne, non pas une moyenne des valeurs mais une moyenne des écarts au carré. Le problème de cette variance est qu’il s’agit d’un paramètre correspondant à des ans_, d’où cette valeur très forte de 120 ! Pour exprimer la dispersion en années, on en prend la racine carrée soit 120 = 10,9 ans. La moyenne est donc de 40 ans avec un écart-type de 10,9 ans. La première leçon est que la variance en elle-même est inutile, elle est juste un intermédiaire statistique au calcul de l’écart-type (en anglais Standard deviation). Pour interpréter l’écart-type, on dit que grosso modo, les valeurs d’âge s’écartent de plus ou moins 10,9 ans (disons 11 ans) autour de la moyenne de 40 ans. Est-ce beaucoup ? Tout est relatif, 11 est fort par rapport à 40 car 11/40 = 27 %. Si on avait une dispersion de 11 ans sur une population d’âge moyen de 80 ans, ce serait tout à fait différent, on aurait 11/80 soit 14 % de variabilité. Le fait de rendre relatif l’écart-type par rapport à la moyenne est le coefficient de variation : il exprime, en pourcentage, l’importance de la variabilité par rapport à la valeur cen- trale. Cet indice est très utile lorsque l’on a des populations à comparer dont la moyenne est différente. Sous une HBPM X, la moyenne des activités anti-Xa 4 h après injection d’une dose curative vaut 0,8 ± 0,4 UI aXa. Sous dose préventive, 4 heures après, la moyenne est de 0,4 ± Tableau 1. Description de la cohorte et résultat à 1 an description A l’inclusion Sexe : nombre d’hommes (%) 626 (62.6%) Age, années (moyenne ± écart-type) 63,4 ± 12,2 Ancienneté du diabète, mois (médiane) 12,4 Niveau d’HbA1c, % : – moyenne ± écart-type 7,1 ± 2,2 – médiane (étendue) 6,8 (6,5 – 8,7) En fin de traitement Niveau d’HbA1c, % : – moyenne ± écart-type 6,4 ± 2,0 – médiane (étendue) 6,4 (6,1 – 8,8) Événements cardiovasculaires (%) 22 (2,2%) Fiche statistique mt, vol. 11, n° 2, mars-avril 2005 118 0,3 UI aXa. Peut-on penser que la dispersion des pics d’activité anti-Xa est plus faible en cas de traitement préventif par rapport à un traitement curatif uniquement parce que l’écart-type est plus petit (0,3 UI aXa versus 0,4) ? En réalité, relativement à la valeur moyenne, le coefficient de variation est de 50 % sous dose curative versus 75 % sous traitement préventif, soit finalement une dispersion plus importante... En synthèse, les paramètres les plus utilisés et les plus utiles sont l’écart-type et le coefficient de variation, la variance n’étant qu’un intermédiaire mathématique. Existe-t-il d’autres paramètres de dispersion ? Étendue, écart inter-quartiles L’étendue (en anglais Range) est probablement l’indice de dispersion le plus simple uploads/Sante/ met-265837-fiche-statistique-n-2-les-statistiques-descriptives-de-base-suite-variance-ecart-type-dispersion-w-xeon8aaqeaadz-mn4aaaag-a 1 .pdf
Documents similaires
-
13
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 01, 2022
- Catégorie Health / Santé
- Langue French
- Taille du fichier 0.0565MB