SEMINAIRE DE RECHERCHE POUR MASTERS DE L’ECOLE NATIONALE SUPERIEURE POLYTECHNIQ

SEMINAIRE DE RECHERCHE POUR MASTERS DE L’ECOLE NATIONALE SUPERIEURE POLYTECHNIQUE DE MAROUA QUELQUES OUTILS D’ANALYSES STATISTIQUES ET PLANS D’EXPERIENCES Pr Goudoum Augustin Maître de Conférences Sciences Alimentaires et Nutrition Clairement définir les objectifs Lister les facteurs influents Choisir le domaine de variation Lister l’ensemble des contraintes Construire le plan d’expériences LA DEMARCHE EXPERIMENTALE Conjecture Plan d’expériences Expérimentation Analyse des résultats Conclusions L’APPROCHE EXPÉRIMENTALE Hypothèse Expérience Résultat expérimental Modèle Résultats probables Résultats improbables Risques LA DÉMARCHE STATISTIQUE Satisfaire des contraintes De coût De temps D'organisation ... Estimation Les recherches peuvent être faites sur: - Une population (collecte des données est exhaustive) - Un échantillon Le travail sur l’échantillon n’a qu’un but : extrapoler les données observées à l’ensemble de la population. Les paramètres mesurés sur un échantillon (moyenne, variance, écart type, pourcentage) sont des estimateurs des vraies valeurs inconnues dans la population. On distingue deux types de sondage : - les sondages aléatoires dans lesquels la probabilité de sélection pour chaque individu est définie dès la constitution du plan de sondage - les sondages empiriques dans lesquels un choix s’exerce sur le terrain en fonction des règles préalable. 1. Sondages aléatoires Ce sont les plus utilisés en pratique scientifique. Ils ne laissent en effet aucune liberté de choix à l’expérimentateur et seul le hasard détermine la sélection de l’échantillon. De nombreuses méthodes de sondages aléatoires existent : 1.1. Sondages élémentaires Elle consiste à numéroter chaque sujet de la population d’étude. Cette liste numérotée constitue la base de sondage. Après avoir numéroté, on tire au sort. Le tirage peut se faire avec remise, sans remise. 1.2. Sondages systématiques Ce type de sondage est utilisé lorsqu’on dispose d’une base de grande taille ordonnée, mais non numérotée. On détermine un pas de sondage qui est le rapport entre la taille de la population N et la taille désirée de l’échantillon n. le pas de sondage N/n est donc l’inverse du taux de sondage. 1.3. Sondage à plusieurs degrés Lorsque la population est de très grande taille, il est souvent impossible de réaliser élémentaire ou systématique. On peut alors pratiquer une partition de la population en groupes. 2 . Sondages empiriques On les utilise lorsqu’on ne dispose pas de base de sondage. Ils sont rapides à effectuer et ne coûte pas cher - méthode des quotas Lorsqu’on connaît la source d’une population selon certaines variables préalablement choisies (par exemple age, sexe professions etc.), on définit l’échantillon avec la même structure. Cette méthode est donc utilisée dans les enquêtes concernant les thèmes dont on connaît bien les déterminants (enquêtes d’opinion et de consommation). - méthode des itinéraires Variante de la méthode des quotas, elle impose à l’enquêteur des trajets à respecter, pour remplir les quotas. Elle réduit la liberté de l’enquêteur - Méthodes des transects Utilisée dans les études de terrain, notamment en écologie animale. Elle consiste à tracer plusieurs lignes parallèles à travers une aire de terrain et à prélever tous les individus sur une étroite bande de part et d’autre de cette ligne. Tests statistiques Tests de comparaison Tests de liaison 1- Les tests de comparaison Il existe deux situations de comparaison : Comparer un échantillon observé à une population de référence Comparer deux ou plusieurs échantillons entre eux Calcul d’un test de comparaison Tous les tests statistiques de comparaison consistent : A calculer un écart entre les paramètres ou les distributions A confronter cet écart à un modèle de distribution théorique. L’écart peut être exprimé par une différence (différence entre deux moyennes, entre deux pourcentage), par un rapport (par exemple la comparaison de deux variances ) Interprétation finale d’un test de comparaison Soit l’hypothèse nulle n’est pas rejetée L’hypothèse nulle est rejetée Selon la nature de la comparaison à effectuer, on utilise la loi Z normale centrée réduite, la loi T de student, la loi F de Fisher- Snedecor ou la loi du 1.1. Loi Z de l’écart réduit Le test Z sert à comparer des paramètres en testant leur différence. On utilise ce test pour comparer : La moyenne d’un échantillon à une moyenne théorique Deux moyennes Deux moyennes de deux séries appariées Les rangs de deux distributions (test de Wilcoxon) Condition: Taille de l’échantillon sup ou égale à 30 1- Les tests de comparaison Pour interpréter les résultats, lorsque z0 est inférieure à 1,96, on ne rejette pas l’hypothèse nulle on dit que la différence n’est pas significative avec ddl=n-1 On calcule la variance commune aux deux échantillons On calcule l’écart type sd de la différence µ1-µ2 par : On calcule T de Student tel que à ddl = n1+n2-2 1.3- Test F de Fisher-Snedecor comparer deux variances par leur rapport. On l’utilise principalement dans deux situations : - Lorsqu’on veut vérifier la condition d’application d’égalité des variances dans un test T de comparaison de moyennes - Lorsqu’on réalise une analyse de variance pour comparer deux moyennes. 1- Les tests de comparaison On calcule F0 le rapport des variances des deux échantillons (en plaçant le plus élevé au numérateur), puis à comparer la valeur obtenue à la distribution de la loi F (table 3). On a deux degrés de liberté k1=n1-1 et k2=n2-1 Analyse de variance pour comparer plusieurs moyennes appelé Analyse de variance, ANOVA. Le test ANOVA permet de comparer les moyennes de plusieurs échantillons scinder la variation totale de l’ensemble des observations en deux termes : - La variation entre les groupes: cette variation est mesurée par l’écart moyen entre chaque moyenne et la moyenne générale : on l’appelle variance entre groupes ; - La variation moyenne des individus à l’intérieur des groupes, mesurée par la moyenne pondérée des variances de chaque groupe ou variance résiduelle. Ici, le nombre de degré de liberté à deux termes Quelques exemples 1- Quelle est la probabilité de tirer 3 as en jetant 10 fois un dé ? (donner la loi). 2- : Lors d’une enquête sur la durée de sommeil des enfants de 2 à 3 ans dans un département, on a trouvé une moyenne du temps de sommeil par nuit de 10,2 heures dans un groupe de 40 enfants. L’écart type est de 2,1 heures. La moyenne attendue du temps de sommeil est de 11,7 heures chez les enfants de cet âge. 1- Formuler les hypothèses 2- choisir le bon test et justifier 3- On désire comparer la pression artérielle diastolique (PAD) d’un groupe de sujets sains (m=70,1) et d’un groupe de sujets atteints de drépanocytose (m=61,8). On ne dispose que de 20 individus par groupe. La variance de la PAD est respectivement de 116,7 et de 47,6. 1- Formuler les hypothèses 2- choisir le bon test et justifier 2- Tests de liaison Existence d’une liaison entre une ou plusieurs variables étudiées sur un échantillon. de conformité ou d’ajustement On utilise ce test lorsqu’on désire comparer une distribution observée sur un échantillon soit à une distribution connue dans une population, soit à une distribution théorique (binomiale, normale, poisson). Ici on détermine les effectifs théoriques à partir des fréquences des classes de la variable dans la population ddl=r-1 =1,09 Test du coefficient de corrélation Il est utilisé lorsqu’on désire tester l’existence d’une liaison entre 2 variables quantitatives. Le test équivalent est le test du coefficient de corrélation des rangs de Spearman. Condition d’application: variables x et y soient aléatoires, l’association x et y soit linéaire, que les distributions de y liées à chaque valeur de x soient normales Quelques exemples 1- Sur un échantillon de 48291 individus exposés à une maladie, une étude statistique sur l’efficacité d’un vaccin a donné les résultats indiqués par le tableau suivant : 1- Formuler les hypothèses 2- choisir le bon test et justifier 2- On étudie l’influence d’une substance sur le temps de réaction de n=5 sujets préalablement entraînés à répondre à un stimulus. Une durée suffisante est observée entre l’administration de deux substances différentes. Les résultats obtenus sont des temps de réaction sous l’influence de chacune des k=4 substances testées. 1- Formuler les hypothèses 2- choisir le bon test et justifier atteints Non atteints Vaccinés 8 992 Non vaccinés 1013 46278 N° Substance 1 Substance 2 Substance 3 Substance 4 1 30 28 16 34 2 14 18 10 22 3 14 20 18 30 4 38 34 20 44 5 26 28 14 30 3. Quelques plans d'expérience courants et analyse de variance Les trois plans considérés comme acceptables par Hurlbert sont les suivants: 3.1. Randomisation totale (completely randomized design) Ce plan prévoit une allocation totalement aléatoire des traitements aux unités expérimentales. Ex: 5 traitements à 5 lots choisis au hasard 3.2. Randomisation par blocs (randomized block design) Avant l'allocation des traitements, l'ensemble des unités d'expérience est divisé en blocs selon le critère intrinsèque qui risque le plus d'introduire de la confusion dans les résultats Ex: croissance de 4 clones de coton dans 5 sites (blocs). 3.3. Plan d'allocation systématique (systematic design) Les niveaux de traitement sont distribués en alternance régulière aux unités Ex: exemple visant à tester la croissance (5 ans) de 5 espèces de plantes, on utilise un dispositif latin carré. ANALYSE uploads/Ingenierie_Lourd/ analyses-statitistiques-master-recherche-2020.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager