Aide - mémoire de statistique appliquée à la biologie – Construire son étude et

Aide - mémoire de statistique appliquée à la biologie – Construire son étude et analyser les résultats à l’aide du logiciel R – Maxime HERVE 3ème version 2011 (1ère version 2010) Avant-propos Lors de mon stage de Master 2, j’ai réalisé une chose importante : en biologie, les statistiques sont essentielles. J’ai aussi réalisé une autre chose importante : je n’y connaissais rien. Et par dessus tout, j’en avais horreur. Mais étant obligé d’en passer par là, je m’y suis mis. Et j’ai alors réalisé une chose encore plus importante : il n’y a pas besoin d’être statisticien pour analyser ses données. Il faut simplement savoir se poser un peu, réfléchir à l’étude qu’on a mené (ou mieux, à l’étude qu’on va mener), et être rigoureux. Pour le reste, tout est disponible dans les livres ou sur internet. J’ai donc décidé de me former dans mon coin à la statistique appliquée à la biologie. Je me suis alors confronté à un problème qui m’a fait perdre beaucoup de temps, un temps que la plupart des stagiaires n’ont pas : il existe de très nombreux et très bons documents sur le sujet, mais très peu qui regroupent les analyses de base, celles que l’on rencontre le plus souvent. Afin de ne pas oublier tout ce que j’avais appris par - ci, par - là, j’ai donc voulu me rédiger un petit document de synthèse. Finalement, j’ai décidé d’en faire un véritable aide - mémoire et de le mettre à la disposition des autres étudiants. L’objectif (ambitieux) de cet ouvrage est donc d’être pour vous le guide que j’aurais aimé avoir lors de mon stage. Utiliser cet aide - mémoire ne demande que très peu de connaissances en statistiques. Savoir ce que sont une moyenne, une variance, une médiane ou un intervalle de confiance est suffisant. Par contre, il exige une chose : si vous voulez qu’il vous prenne par la main, il faut que vous en ayez envie. J’entends par là qu’il est indispensable de se poser des questions : à quelle question mon étude doit - elle répondre ? Quel dispositif vais - je mettre en place pour y répondre ? Que vais - je contrôler, que vais - je observer dans l’étude ? Comment vais - je utiliser mes résultats ? Si l’on prend le temps de se poser ces questions, et surtout le temps d’y apporter une réponse, analyser ses données n’est pas compliqué. Vous verrez même qu’il est très agréable de comprendre ce que l’on fait, et pourquoi on le fait. Peut - être même que comme moi, vous prendrez goût aux statistiques. Mais si par contre vous ne vous voulez pas prendre le temps de réfléchir à votre travail, malgré toute la bonne volonté que j’ai mise à écrire cet ouvrage le plus simplement possible, je ne peux rien pour vous. Pour réaliser l’analyse des résultats, j’ai choisi d’utiliser R, qui est à la fois un langage informatique et un logiciel. J’ai fait ce choix car il est gratuit et libre, ce qui vous permet de l’utiliser absolument partout. De plus, il est extrêmement puissant et son caractère libre fait que de nombreux utilisateurs s’investissent pour l’améliorer et l’enrichir en permanence. Enfin, passé le dégoût éventuel d’avoir à écrire soi - même des lignes de commande, vous verrez que R est simple à utiliser et que mieux, il permet (car il l’oblige) de comprendre ce que l’on fait. Comme pour la théorie statistique, utiliser cet aide - mémoire n’exige que très peu de connaissances sur R. Il nécessite seulement de savoir créer les objets de base du langage (vecteur, tableau, matrice) et de savoir effectuer des manipulations simples sur ces objets. Si ces bases ne sont pas acquises, vous pouvez vous référer à certains documents d’introduction à R cités dans la bibliographie. N’oubliez pas également qu’à chaque fonction dans R est associée une page d’aide, que l’on appelle par la syntaxe ?fonction. Il est très important pour moi d’être en contact avec les utilisateurs de cet aide - mémoire, car c’est grâce à cela que je peux l’améliorer. Je remercie donc toutes les personnes qui m’écrivent pour me poser des questions ou pour rectifier des erreurs. Ce sont elles qui me donnent envie de le clarifier, de l’enrichir et de le corriger. Je vous invite donc sincèrement à m’envoyer un e - mail (mx.herve@gmail.com) si vous trouvez qu’un point n’est pas clair, qu’un autre mériterait d’être ajouté ou approfondi, ou encore qu’il subsiste des erreurs dans le document. Certaines des fonctions présentées dans cet ouvrage nécessitent d’installer des packages qui ne sont pas fournis avec la distribution de base de R. Parmi ceux - ci se trouve le package RVAideMemoire, qui contient des fonctions que j’ai écrites spécialement pour accompagner cet aide - mémoire. Son développement est donc intimement lié à celui de ce document, et là encore je vous encou- rage à me faire part de vos remarques, suggestions, critiques et / ou corrections. Pour finir, même si vous n’avez rien à dire je vous invite à m’envoyer un petit mail quand même. Cela me permettra de créer une liste de diffusion afin d’informer un maximum d’utilisateurs de la sortie de nouvelles versions de l’aide - mémoire et/ou du package RVAideMemoire. J’espère sincèrement que ce livre comblera vos attentes et qu’il vous per- mettra de répondre à vos questions. Le 13 Juillet 2011 Maxime Hervé Sommaire L’ouvrage est divisé en quatre parties : La préparation de l’étude : souvent trop peu d’importance y est at- tachée. Pourtant, cette phase est au moins aussi cruciale que l’analyse des résultats puisqu’elle détermine la façon dont ceux - ci vont pouvoir être analy- sés. Une étude bien préparée facilite grandement l’exploitation des résultats, tandis qu’une étude mal préparée entraîne généralement des complications au moment de l’analyse et de l’interprétation. La préparation et l’importation des données : cette étape apparem- ment simple peut poser problème par manque d’expérience. Elle est pourtant cruciale, puisque des données mal structurées ou mal importées dans R peuvent conduire à une analyse complètement faussée. L’analyse descriptive des résultats : ce type d’analyse est toujours indispensable, et selon l’objectif de l’étude il peut être suffisant. L’analyse descriptive est souvent négligée pour « foncer sur les tests », ce qui conduit à oublier la réalité des données (et par conséquent à compliquer voire fausser l’interprétation des résultats). L’analyse inférentielle des résultats : ce type d’analyse regroupe la détermination des intervalles de confiance et la réalisation des tests statistiques. L’analyse inférentielle est la seule phase de l’étude qui est facultative. Dans tous les cas elle doit passer après l’analyse descriptive. 1. PREPARATION DE L’ETUDE 1. Les différents types de variable 2. Le plan d’échantillonnage 3. Le plan d’expérience 4. La détermination de la taille de l’échantillon 2. PREPARATION ET IMPORTATION DES DONNEES 5. Construction du tableau de données 6. Importation du tableau de données dans R 7. i Installer et charger un package 8. i Citer R et ses packages 3. ANALYSE DESCRIPTIVE DES RESULTATS 3.1. Statistique univariée 9. Graphiques de dispersion : la fonction stripchart() 10. Histogrammes : la fonction hist() 11. Boîtes à moustaches : la fonction boxplot() 12. La réduction des données à une dimension 3.2. Statistique bivariée 13. Nuages de points : la fonction plot() 14. La réduction des données à deux dimensions 3.3. Statistique multivariée Choisir son analyse multivariée Ce choix dépend de la nature des variables étudiées : – toutes quantitatives : ACP – toutes qualitatives : – deux variables : AFC – plus de deux variables : ACM – à la fois quantitatives et qualitatives : Analyse mixte. 15. L’Analyse en Composantes Principales (ACP) 16. L’Analyse Factorielle des Correspondances (AFC) 17. L’Analyse des Correspondances Multiples (ACM) 18. L’Analyse mixte de Hill et Smith 4. ANALYSE INFERENTIELLE DES RESULTATS 4.1. Quelques bases théoriques 4.1.1. Lois de probabilité 4.1.1.1. Lois de probabilité discontinues 19. Lois de probabilité discontinues – généralités 20. La loi binomiale 21. La loi de Poisson 22. La loi binomiale négative 4.1.1.2. Lois de probabilité continues 23. Lois de probabilité continues – généralités 24. La loi normale 25. La loi exponentielle 26. La loi de χ2 27. La loi de Fisher - Snedecor 28. La loi de Student 4.1.2. Risques et puissance associés aux tests statistiques 29. Principe des tests statistiques et risques associés à la conclusion 30. Le risque ou seuil de rejet α 31. La correction du seuil de rejet α 32. Le risque β et la puissance du test 4.2. Identification des données aberrantes 33. L’identification des données aberrantes 4.3. Intervalles de confiance et erreur standard 34. Intervalle de confiance et erreur standard 35. i Tracer un diagramme en barres avec barres d’erreur 4.4. Tests d’hypothèses 36. Les différents types de test statistique 4.4.1. Conditions préalables à l’utilisation des tests Ces conditions ne sont pas toujours à remplir, cela dépend du test que l’on souhaite utiliser. 37. Caractère aléatoire et simple d’une série de données 38. Ajustement à une distribution théorique 39. Egalité des variances de uploads/Management/ herve-aide-memoire-que.pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Fev 23, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 4.1556MB