D. Poinsot Statistiques pour statophobes Deuxième partie Sachez utiliser les te

D. Poinsot Statistiques pour statophobes Deuxième partie Sachez utiliser les tests statistiques Avec Parsimoni et Abonessian Les tests statistiques sont un sujet difficile, mais également – comme vous le découvrirez peut être avec surprise – hautement polémique. J'ai donc fait appel à deux fins experts, qui interviendront tout au long de cette seconde partie, chaque fois qu'ils en ressentiront le besoin. Ils se connaissent depuis longtemps et se chamaillent à tout propos (comme il sied à des experts), mais savent toujours tomber d'accord sur l'essentiel. Giuseppe Parsimoni occupe depuis de très nombreuses années la chaire d'économie en statistiques de l'université méditerranéenne de Chevapiano. Farouche partisan des intervalles de confiance, sa vision des tests statistiques actuels est extrêmement critique. Il soutient que dans neuf cas sur dix, le calcul d'un intervalle de confiance autour des valeurs estimées, ainsi que le calcul de la magnitude de l'effet observé (avec son intervalle de confiance également) sont largement suffisants (et supérieurs à un test) pour répondre concrètement et intelligemment à la question posée. Ses ouvrages majeurs incluent Statistica al' economia, Testi i tutti quanti ma non tropo, ainsi que le lapidaire Data e basta !. Son chef d'oeuvre est bien entendu Il principio di Parsimoni, traduit en 25 langues et largement utilisé en biologie évolutive. Tigran Abonessian dirige d'une main de fer le Black Sea Institute for the Wise Use of Modern Statistics de Testanova, au bord de la Mer Noire. Tout en admettant volontiers le bien fondé de nombreuses critiques de son collègue Parsimoni, il soutient que les tests statistiques gardent leur mot à dire dans le monde scientifique moderne, à condition de les utiliser avec pertinence, et seulement pour ce qu'ils sont, et non comme des oracles miraculeux. Il est l'auteur de plusieurs ouvrages sur l'usage inadapté des tests, dont ANOVA is Not a dying star, Kurtosity killed the cat, ainsi que A test in need is a friend indeed. Son oeuvre majeure est cependant On The Origin of Slopiness by Means of Statistical Confusion. D. Poinsot Statistiques pour statophobes 8. La fin des tests statistiques ? Il y a quelque chose de pourri au royaume du Danemark SHAKESPEARE (Hamlet) Viens, viens découvrir le côté sombre de la force, Luke. DARTH VADOR (Star Wars) Attention : si vous ne voulez pas perdre définitivement votre foi dans l'infaillibilité de la Science, ne lisez surtout pas ce chapitre ! Fuyez pendant qu’il en est encore temps ! Bon, vous l’aurez voulu. Une information alarmante est habituellement passée sous silence dans l’introduction des dizaines de manuels d’introduction aux tests statistiques qui garnissent les étagères des bibliothèques universitaires à l'attention des débutants (et des moins débutants). Il s’agit du fait que l’utilisation des omniprésents tests d’hypothèses (Z, t, 2, ANOVA etc...) telle qu'elle est pratiquée dans les revues de recherche scientifiques du monde entier (autrement dit l’approche « Ho contre H1, si P < 0,05 je rejette Ho ») est vigoureusement remise en cause depuis plus d'un demi siècle. Plus perturbant encore, cette critique radicale (et de plus en plus pressante) n’est pas issue d’un collectif anarchiste ou d'un ramassis de feignants incultes allergiques aux mathématiques et n’ayant jamais analysé des données de leur vie. Bien au contraire, la charge contre l’utilisation traditionnelle des tests d’hypothèse est menée depuis 1935 environ par des statisticiens chevronnés et des chercheurs très expérimentés qui utilisent les statistiques dans leur travail de recherche. William Thomson, un chercheur de la Colorado State University, a recensé dans la littérature scientifique du plus haut niveau plus de 400 articles et de chapitres d'ouvrages (voire d'ouvrages entiers) sur ce thème1 ! les plus anciennes de ces protestations remontent aux années 1930 et sont apparues dès la mise au point des tests (autrement dit, on ne vient pas de s’apercevoir du problème !), la vague de critiques a cru et embelli dans les années 50, 60, 70, 80, 90 (avec la publication par un groupe de psychologues d'un ouvrage (contesté) intitulé sobrement "What if there were no significance tests ?") et elle n'a rien perdu de sa vigueur, bien au contraire. Un symposium portant entièrement sur la question a rassemblé des statisticiens à Buffalo en 1998, et une Task Force spéciale comme seuls les américains en ont le secret a 1 http://www.cnr.colostate.edu/~anderson/thompson1.html D. Poinsot Statistiques pour statophobes été formée par la American Psychological Association pour édicter des recommandations aux auteurs publiant dans ses plus prestigieuses revues scientifiques de cette discipline. Le rapport de cette task force inclut un bon nombre des critiques acerbes pleuvant sur les tests statistiques, et enjoint à tout auteur désireux de publier dans les revues de l'APA d'en tenir compte. J’ai enseigné les bases des statistiques à des étudiants de maîtrise de biologie pendant plusieurs années, sans jamais – honte à moi – avoir entendu parler de cette polémique pourtant mondiale et ancienne, preuve qu’elle ne fait pas franchement partie des enseignements traditionnels que j'ai moi même reçus, et je n'ai encore rien lu à ce sujet dans un manuel de statistiques. De là à penser qu’il y a un complot mondial pour nous cacher certaines choses il n’y a qu’un pas. Il serait évidemment grotesque de le franchir, et 400 articles scientifiques en accès libre dans de prestigieuses revues à comité de lecture sont là pour témoigner du fait que ces problèmes sont en fait identifiés depuis longtemps, même s'ils semblent avoir du mal à diffuser en dehors de la sphère des spécialistes. Je remercie donc chaleureusement mon collègue le Pr. Jean-Sébastien Pierre (éthologue et véritable biomathématicien, lui) de m'avoir fait découvrir le côté sombre de la force, c'est à dire cette polémique troublante sur la légitimité des tests statistiques, qui m'a amené à faire ma petite enquête sur la question. Imaginez un instant mon désespoir initial ("quoi, après tout ce que j'ai souffert pour apprendre à utiliser ces satanés tests, maintenant on vient me dire qu'il ne faut plus s'en servir ???") Mais quelles sont ces critiques au juste ? Ecoutons le vénérable mais toujours énergique Giuseppe Parcimoni vous les décrire avec flamme : G. Parcimoni — Mes enfants, ne tombez pas dans le piège comme tous les moutons de Panurge qui vous ont précédés. Méfiez vous des tests, leurs P qui veulent simplement dire "Poudre aux yeux", et leurs "étoiles" qui vous cachent le ciel et — pire encore — vos propres données ! Remplacez-les chaque fois que vous pourrez — c'est à dire presque tout le temps ! — par de bon vieux intervalles de confiance. On a jamais rien fait de mieux. Apprenez à utiliser les intervalles de confiance, car ils sont la base de tout et vous obligent à regarder vos données. Un bon intervalle de confiance vaut tous les tests du monde. Et si vous ne me croyez pas, méditez ceci : (1) Dans l'écrasante majorité des cas, les hypothèses Ho utilisées par les tests sont du type "aucun effet". Or, elles sont presque forcément fausses (et parfois, on le sait même parfaitement dès le départ !) car tout ou presque a un effet sur tout ou presque, même si l'effet en question est minusculissime. Le fait qu’un test soit statistiquement significatif revient donc la plupart du temps à enfoncer une porte ouverte. On se doute bien que la substance X va avoir un effet sur le taux de division cellulaire. La vraie question qu'on se pose est en fait : quelle est la magnitude de cet effet. Ce calcul nécessite de se concentrer sur les valeurs obtenues avec ou sans la substance X, et sur leur fiabilité, donc, sur leurs intervalles de confiance. (2) puisqu'en général il y a toujours un effet (aussi minuscule soit il) il suffit d'un échantillon suffisamment grand pour montrer que presque n’importe quoi est statistiquement significatif. La belle affaire ! En revanche, le fait qu’un effet soit statistiquement significatif n’apporte aucune information concrète sur la magnitude D. Poinsot Statistiques pour statophobes de l’effet en question (on ne peut donc pas mesurer son intérêt scientifique) ni sur la précision avec laquelle il a été estimé (on ne peut donc pas connaître la fiabilité de la magnitude de l'effet observé). En revanche, calculer les intervalles de confiance permet encore une fois de répondre de manière naturelle à ces questions fondamentales. (3) Avec un échantillons suffisamment petit, on peut obtenir au contraire un résultat non significatif sur n’importe quoi, par simple manque de puissance du test. Le fait qu’un résultat ne soit pas statistiquement significatif n’apporte donc aucune information non plus si on s'en tient là (et 9 fois sur 10 on s'en tient justement là). Or, en général, la puissance des tests est faible car l'habitude n'est pas encore prise de d'estimer la puissance du test avant de lancer la manip, particulièrement parce que cela oblige à réfléchir en profondeur sur les objectifs de l'expérience et à obtenir des réponses précises à des questions difficiles. Le calcul d'un intervalle de confiance autour d'une valeur estimée vous protège automatiquement contre ce risque, car il vous montre littéralement la gamme de valeurs uploads/Science et Technologie/chapitre-8-la-fin-des-tests-statistiques.pdf

  • 31
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager