Les logiciels de biostatistiques Nous donnons, à titre indicatif, une liste de

Les logiciels de biostatistiques Nous donnons, à titre indicatif, une liste de logiciels statistiques couramment utilisés. Dans tous ces logiciels, les avantages et les incon- vénients sont très subjectifs. Dans un traitement statistique, la phase qui prend généralement le plus de temps est celle de la saisie et du nettoyage des données, bien plus que celle de l’analyse proprement dite. Nous attirons donc l’attention sur la nécessité d’une conception ergonomique du cahier d’observation, afin de faciliter ces étapes. Selon le volume d’information à saisir, l’organisation de la saisie elle- même, un tableur (par exemple Open Office Calc, Microsoft EXCEL™) pourra être suffisant ; l’utilisation de bases de données s’avérera néces- saire en cas de gros volumes et de questionnaires dépendants (Open Office BASE, Microsoft ACCESSTM ou SQL ServerTM, MySQL TMÖ). De plus en plus, les logiciels de statistiques permettent également de créer des outils de saisie. On attirera également l’attention sur la disponibi- lité de solution de saisie à distance par exemple avec LIMESurvey qui permet la saisie par Internet. Finalement, toute base de données doit être déclarée à la CNIL et recevoir une autorisation. Ci-après, une liste non exhaustive des logiciels utilisables est donnée par ordre alphabétique. À noter que d’autres logiciels, non spécifiques, offrent des capacités statistiques : certains tableurs ainsi que certains logiciels tournés vers la réalisation de graphiques. Pour des analyses simples, le choix du logiciel n’est pas essentiel, tous les logiciels propo- sant au minimum les tests usuels. Le choix devra être fait avant tout en fonction des ressources disponibles, de l’appétence envers l’univers informatique, et des possibilités locales de soutien ! Biostatgv : Le site internet Biostatgv (http://www.u707.jussieu.fr/ biostatgv) permet de réaliser la plupart des tests classiques. Les calculs sont faits dans le logiciel R (voir ci-après). Il s’agit donc d’une solution simple pour effectuer des analyses descriptives, ainsi que des tests de différence, d’association. Il est également possible de calculer la taille des essais ou nombre de sujets. R : Le logiciel R est un logiciel libre, gratuit, disponible sur le site CRAN (http://cran.r-project.org). Ce logiciel est très utilisé dans le milieu académique. Il peut être enrichi facilement par un système de 276 Biostatistiques pour le clinicien bibliothèques qui apporte des fonctionnalités supplémentaires. L’inte- raction avec le logiciel prend la forme de « scripts » ou programmes qui vont indiquer les traitements ou transformations que l’on sou- haite appliquer aux données. Il est gratuit, extensible et les méthodes modernes sont rapidement disponibles. Il existe des extensions (RCommander) dont le but est de rendre l’utilisation plus ergono- mique, la plupart des commandes étant réalisées au clavier. S-plusTM : Il s’agit d’un logiciel commercial. S-plus est très semblable, dans ses capacités, au logiciel R décrit plus haut. Il bénéficie d’une interface plus conviviale, permettant de réaliser un bon nombre d’opé- rations en utilisant la souris (lecture des données, analyses standards), cependant le mode d’interaction privilégié reste le clavier. Il bénéfi- cie d’une compatibilité très bonne avec le logiciel R qui permet de bénéficier des librairies développées pour ce dernier. L’accès rapide aux innovations statistiques est donc possible par le biais de librairies additionnelles. SASTM : le logiciel SAS est un logiciel commercial, édité par la compa- gnie SAS. SAS implémente une très grande variété de méthodes statis- tiques. Il est particulièrement performant dans le traitement de gros volumes de données, et très utilisé dans le milieu industriel. L’inter- action avec le logiciel a lieu principalement sous la forme de scripts ou de programmes qui décrivent les traitements ou les transformations que l’on souhaite appliquer aux données. SPSSTM : Il s’agit d’un logiciel commercial, édité par IBMTM. L’abord de SPSS ressemble à un tableur, ce qui rendra le logiciel familier et dimi- nuera la courbe d’apprentissage initiale. SPSS permet de réaliser les tests classiques rencontrés en recherche clinique et en épidémiologie. L’interaction peut aussi avoir lieu par le biais de « scripts » ou petits programmes entrés au clavier. STATA TM : Il s’agit d’un logiciel commercial, édité par StataCorpTM. Ce logiciel propose un choix important de méthodes classiques et modernes. Il met également en avant la possibilité de créer de nouvelles analyses par la programmation. L’interaction a lieu principalement par le clavier, plus que par la souris. Quelques notations en biostatistiques On utilise généralement les lettres majuscules (X, Y, Z, P, etc.) pour désigner des variables aléatoires. Par exemple, la proportion P de métastases hépatiques chez les malades atteints d’un cancer est une variable aléatoire (quantitative) qui prend des valeurs p0 différentes dans chaque échantillon de malades observés. De même, le taux de cholestérol (Tc) dans une population française, etc. Si l’on mesure ces variables, par exemple sur un groupe de sujets ou de malades ou sur une série d’expériences (c’est-à-dire sur un échantillon), la valeur que prend la variable s’écrit en minuscules : s est une mesure (ou réalisation) de X, y est une mesure ou réalisation de Y, etc. La notation est différente selon que l’on indique par une lettre grecque ce que serait la « vraie valeur » qui est rarement connue, par exemple le pourcentage S de nouveau-nés de sexe masculin dans la population française qui est de 51,5 % ou bien par une lettre latine minuscule, la valeur mesurée, dite estimée dans un groupe de personnes que l’on peut considérer être des échantillons de cette population (tableau I). Tableau I – Notation des valeurs selon qu’elles sont réelles ou une estimation sur un échantillon. « Vraie valeur » Valeur estimée sur un échantillon Probabilité S p Complément de la probabilité inverse 1 – S q = 1 – p Moyenne P m Variance V² s² Écart-type V s Coefficient de corrélation U r Coefficient de concordance N k Les grandes lois de probabilité se notent avec des lettres majuscules cur- sives avec, entre parenthèses, les paramètres de la loi correspondante : – loi normale N (μ, V²) ; 278 Biostatistiques pour le clinicien – loi binomiale B (n, S) ; – loi de Poisson P (O). D’autres notations ont été utilisées : – 6 x représente la somme des valeurs x de l’échantillon ; – i représente un individu, i 1, le premier de l’échantillon, i 2 le second, etc. ; – xi est la variable mesurée chez l’individu i correspondant ; – N est la taille de l’effectif de l’échantillon étudié ; – C2 4 représente une combinatoire, c’est-à-dire dans cet exemple le nombre de façons de classer ou de ranger deux sujets parmi une liste de quatre ; – s² A signifie la variance ( s²) de l’échantillon A ; – sA signifie l’écart- type (s) de l’échantillon A ; – °X° veut dire la valeur absolue de X (c’est-à-dire que cette valeur soit + X ou – X) ; – ! est une factorielle, c’est-à-dire le produit dont les facteurs sont tous les entiers successifs égaux ou inférieurs à un nombre donné. Par exemple : ! 4 = 4 × 3 × 2 × 1 = 24. Lexique Les * renvoient à un autre mot. Les mots entre [ ] sont les termes anglais correspondants. A Actuarielle (méthode) [actuarial method] Méthode d’estimation adaptée aux variables censurées* (survie, réci- dive, etc.). Elle repose sur le principe des probabilités conditionnelles*. Les taux de survie sont évalués à intervalles réguliers, par exemple tous les 6 mois, tous les ans. Ajustement [adjustment] Ceci consiste à prendre en compte l’influence d’une tierce variable dans la mesure de la corrélation entre deux variables d’intérêt. Le but est de déterminer si la corrélation persiste lors de cet ajustement. Il est la base des études multifactorielles*. Aléatoire (variable) [random] Des variables sont dites aléatoires lorsque leur valeur dépend de l’in- dividu sur lequel elles sont mesurées. Elles se différencient ainsi des constantes, plus souvent présentes en physique ou en mathématiques. Alpha, Į (risque) Désigne le risque de première espèce*. Ambivalence (clause d’) [ambivalence clause] Dans un essai randomisé* les sujets inclus doivent pouvoir recevoir l’une ou l’autre des interventions que l’on cherche à comparer. Analyse … … en composante principale [principal component analysis] Méthode d’analyse multifactorielle* descriptive qui permet de déter- miner les variables qui contribuent le plus à la variabilité observée, ainsi que les groupes de variables corrélées. 280 Biostatistiques pour le clinicien … discriminante [discriminant analysis] Méthode d’analyse multifactorielle qui permet, à l’aide de covariables* de déterminer un score numérique permettant la discrimination optimale entre deux groupes de sujets A et B. … factorielle de correspondance Méthode d’analyse multifactorielle* descriptive applicable si les variables étudiées sont qualitatives. Son principe est assez proche de celui des analyses en composante principale*. … intermédiaire [intermediate analysis] Dans un essai randomisé*, analyse réalisée avant la fin de l’essai. Néces- site de réfléchir aux tests répétés et au contrôle du risque de première espèce. … multifactorielle [multivariate analysis] Sélectionne les covariables indépendantes entre elles et liées à la variable que l’on cherche à expliquer. Elles reposent sur le principe d’ajustement*. Voir : régression multiple*, régression logistique*, modèle de Cox*, analyse discriminante*. … séquentielle [sequential analysis] Il s’agit d’une uploads/Geographie/ 2013-bookmatter-biostatistiquespourleclinicien.pdf

  • 34
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager