Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son

Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l’aide du logiciel R Version finale (2016) AVANT-PROPOS Il n’est pas besoin de grandes enquêtes d’opinions pour se rendre compte que les biologistes sont globalement frileux à se frotter aux statistiques. L’étape de l’analyse des résultats est souvent vécue comme une contrainte, un passage obligé mais désagréable, voire même parfois un calvaire. Pourtant, le premier objectif des statistiques est bien de révéler ce que les données ont a nous dire. Passer à côté d’une bonne analyse par manque de temps, de motivation ou de compétence, c’est surtout prendre le risque de rater un phénomène intéressant qui était pourtant là, sous nos yeux. L’objectif de cet aide-mémoire est de guider tout biologiste qui en sentirait le besoin dans sa dé- marche statistique, depuis la construction du protocole expérimental jusqu’à l’analyse des résultats qui en découlent. Il doit permettre de s’en sortir seul, tout en assurant une analyse appropriée et rigoureuse. Bien entendu, il ne dispense pas de se poser des questions et il est toujours nécessaire d’adapter un minimum le code proposé à ses propres données. Pour imager les choses, considérez que vous apprenez à faire du vélo et que ce document est la paire de roulettes qui vous évite de chuter. C’est rassurant, mais n’oubliez pas qu’avant tout c’est vous qui pédalez. Depuis la rédaction de la première version de cet aide-mémoire il y a six ans déjà, j’ai beaucoup enseigné, formé et conseillé en statistique appliquée à la biologie. Ces nombreuses interactions avec des collègues et étudiants m’ont conduit à la structure de cette sixième et dernière version, qui je crois est celle qui est la plus adaptée à une bonne démarche d’analyse. Un assez grand nombre de méthodes sont couvertes par ce document, et j’ai tout fait pour simplifier l’orientation dans cette « jungle ». Malgré tout, une bonne part du cheminement est dépendante du biologiste lui-même. Une bonne analyse est une analyse qui répond pertinemment à une question précise. La règle d’or est donc avant tout de bien identifier cette question ou série de questions, et de ne jamais l’oublier car le choix de la méthode statistique la plus pertinente en dépend et il est facile de se perdre en analysant ses données. Cet aide-mémoire est directement associé au package RVAideMemoire. La présente version du docu- ment correspond aux versions ≥0.9-60 du package. J’espère sincèrement que ce document comblera vos attentes et qu’il vous permettra de vous sentir moins seul dans le monde pas si cauchemardesque des statistiques. Le 22 août 2016 Maxime HERVÉ SOMMAIRE I Bases du fonctionnement de R 4 II Théorie statistique élémentaire 16 III Analyser les résultats d’une étude 36 PARTIE I – BASES DU FONCTIONNEMENT DE R Ce document n’est pas à proprement parler une introduction à R. Cette partie rappelle seulement quelques notions essentielles comme la manipulation des objets courants (vecteurs, tableaux, matrices et listes), la construction et l’importation d’un jeu de données, la gestion des packages et diverses autres choses comme des « bonnes pratiques ». PARTIE II – THÉORIE STATISTIQUE ÉLÉMENTAIRE Ce document n’est pas non plus une introduction aux statistiques. Cependant certaines bases théo- riques sont indispensables pour construire une étude proprement et en analyser correctement les résultats : types de variable, plan d’échantillonnage ou d’expérience, fonctionnement d’un test, taille de l’échantillon à constituer. Accessoirement, les lois de distribution les plus courantes sont présentées. PARTIE III – ANALYSER LES RÉSULTATS D’UNE ÉTUDE L’essentiel du document est dans cette partie, qui détaille comment représenter, synthétiser et analy- ser des données à une, deux ou plus de deux dimensions. 3 Première partie Bases du fonctionnement de R MANIPULATION DES OBJETS COURANTS 1. Les vecteurs 2. Les tableaux 3. Les matrices 4. Les listes PRÉPARATION ET IMPORTATION DES DONNÉES 5. La construction d’un tableau de données 6. L’importation d’un tableau de données dans R DIVERS 7. Bonnes pratiques 8. Installer, charger et mettre à jour des packages 9. Citer R et ses packages 10. Changer de version de R 4 > Bases du fonctionnement de R 1. Les vecteurs Le vecteur est à la fois l’objet le plus simple et le plus fondamental du langage R. Il se crée gràce à la fonction c(), qui prend comme arguments les éléments du vecteur. Tous ces éléments doivent être du même type : valeurs numériques, chaînes de caractères ou encore niveaux d’un facteur. EXEMPLE(S) Pour créer un vecteur numérique : > vecteur <- c(7,9,4,12,18) > vecteur [1] 7 9 4 12 18 Pour créer un vecteur de chaînes de caractères : > vecteur <- c("H","C","I","G","F") > vecteur [1] "H" "C" "I" "G" "F" Pour créer un facteur : > vecteur <- factor(c("niv1","niv2","niv2","niv3","niv1")) > vecteur [1] niv1 niv2 niv2 niv3 niv1 Levels: niv1 niv2 niv3 Il existe des fonctions ou des abréviations qui permettent de simplifier la création de certains vecteurs usuels : EXEMPLE(S) > 1:10 [1] 1 2 3 4 5 6 7 8 9 10 > seq(from=1,to=3,by=0.25) [1] 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 > LETTERS[1:5] [1] "A" "B" "C" "D" "E" Pour accéder au(x) ième(s) élément(s) d’un vecteur, écrire vecteur[i], où i peut être une valeur unique ou lui-même un vecteur : EXEMPLE(S) > vecteur <- seq(from=2,to=16,by=2) > vecteur [1] 2 4 6 8 10 12 14 16 > vecteur[5] [1] 10 > vecteur[c(2,5,8)] [1] 4 10 16 > vecteur[-c(2,5,8)] [1] 2 6 8 12 14 > vecteur[6:3] [1] 12 10 8 6 5 > Bases du fonctionnement de R 2. Les tableaux Les tableaux sont simplement un moyen de regrouper (en colonnes) des vecteurs dans le même objet, chaque colonne étant indépendante. L’unique contrainte est que tous les vecteurs doivent avoir la même longueur. Pour créer un tableau, utiliser la fonction data.frame(), qui prend en arguments les différentes colonnes (de gauche à droite). On peut préciser le titre des colonnes. Dans le cas d’un vecteur de chaînes de caractères, celui-ci est automatiquement transformé en facteur lorsqu’il est intégré au tableau. EXEMPLE(S) > variable1 <- 1:5 > variable2 <- LETTERS[1:5] > tableau <- data.frame(variable1,variable2) > tableau variable1 variable2 1 1 A 2 2 B 3 3 C 4 4 D 5 5 E Le tableau peut être créé directement via : > tableau <- data.frame(variable1=1:5,variable2=LETTERS[1:5]) Pour accéder à un (ou plusieurs) élément(s) d’un tableau, le principe est le même que pour les vecteurs (voir fiche 1) excepte qu’il n’y a pas une mais deux dimensions à l’objet (i.e. les lignes et les colonnes). Le principe d’indexation est valable pour tous les objets à deux dimensions et est celui-ci : tableau[ligne(s),colonne(s)], où ligne(s) et colonne(s) sont soit des valeurs uniques, soit des vecteurs. Si rien n’est mis avant la virgule toutes les lignes sont sélectionnées, si rien n’est mis après toutes les colonnes sont sélectionnées. EXEMPLE(S) > tableau[c(1,3),] variable1 variable2 1 1 A 3 3 C > tableau[c(3,5),2] [1] C E Levels: A B C D E Dans le cas particulier de la sélection d’une colonne entière, il y a trois autres possibilités : — tableau$colonne où colonne est le nom de la colonne — tableau$"colonne" où colonne est le nom de la colonne, entre guillemets — tableau[,"colonne"] où colonne est le nom de la colonne, entre guillemets. 6 > Bases du fonctionnement de R 3. Les matrices À la différence des tableaux (voir fiche 2), les matrices sont un tout cohérent, i.e. les colonnes ne sont pas indépendantes. Cela implique que tous les éléments d’une matrice sont de même type : numérique, texte, niveaux de facteur... Pour créer une matrice, utiliser la fonction matrix(), qui prend comme arguments obligatoires les valeurs qui doivent la remplir, et le nombre de lignes et/ou de colonnes. Par défaut les matrices sont remplies en colonnes, pour les remplir en lignes ajouter l’argument byrow=TRUE. Pour donner un nom aux lignes et aux colonnes, utiliser l’argument dimnames=list(lignes,colonnes), où lignes et colonnes sont des vecteurs : EXEMPLE(S) > matrice <- matrix(1:8,nrow=2) > matrice [,1] [,2] [,3] [,4] [1,] 1 3 5 7 [2,] 2 4 6 8 > matrice <- matrix(1:8,nrow=2,byrow=TRUE) > matrice [,1] [,2] [,3] [,4] [1,] 1 2 3 4 [2,] 5 6 7 8 > matrice <- matrix(1:8,nrow=2,dimnames=list(letters[1:2],LETTERS[1:4])) > matrice A B C D a 1 3 5 7 b 2 4 6 8 Il est également possible de créer des matrices à partir de plusieurs vecteurs qui doivent en constituer les lignes ou les colonnes. Utiliser pour cela les fonctions rbind() ou cbind(), qui assemblent les vecteurs respectivement en lignes et en colonnes : EXEMPLE(S) > vecteur1 <- 1:3 > vecteur2 <- 4:6 > matrice <- rbind(vecteur1,vecteur2) > matrice [,1] [,2] [,3] vecteur1 1 2 3 vecteur2 4 5 6 > matrice <- cbind(vecteur1,vecteur2) > matrice vecteur1 vecteur2 [1,] 1 4 [2,] 2 5 [3,] 3 6 Les matrices étant des objets à deux dimensions (les lignes et les colonnes), leur indexation est identique à celle des tableaux (voir fiche 2). 7 > Bases du fonctionnement de R 4. Les listes Les listes sont uploads/Management/ tlb66.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jan 31, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 4.2076MB