07/02/2021 1 Contrôle et critique des données Chapitre III 1 Analyse et Modélis

07/02/2021 1 Contrôle et critique des données Chapitre III 1 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG • Pour garantir la validité d’une étude statistique, il faut se préoccuper de: - La représentativité des échantillons - La qualité des données utilisées - Les caractéristiques des techniques utilisées 2 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 2 Les tests statistiques En général, nous disposons d’échantillons de taille réduite à partir desquels nous voulons généraliser certaines conclusions. Pour cela, on doit faire certaines hypothèses et évaluer les risques d’erreur dus à une information incomplète. Le problème des tests statistiques est posé comme suit: - On envisage deux hypothèses exclusives H0 et H1. H0 est l’hypothèse qu’on veut tester et H1 est une hypothèse contraire (appelée hypothèse alternative). - On peut commettre deux types d’erreurs: Rejeter H0 alors qu’elle est vraie (erreur du type I) Accepter H0 alors qu’elle est fausse et que H1 est vraie (erreur du type II) 3 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG Réalité/Décision On accepte H0 On rejette H0 H0 Vraie Ok (Bonne décision) Erreur de type I  H0 Fausse Erreur de type II  (Puissance du test) Ok (Bonne décision) La solution idéale consiste à minimiser les deux types d’erreur, mais pour un échantillon de taille donnée, si on diminue la taille d’une erreur, on augmente la taille de l’autre. En pratique, on se préoccupe de minimiser la taille de l’erreur de type I. Lorsqu’on teste l’hypothèse H0, la probabilité de commettre l’erreur de type I est notée et on l’appelle niveau de signification. 4 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 3 =0.05 signifie que: On a 5 chances sur 100 de prendre une mauvaise décision en rejetant l’hypothèse H0, alors qu’elle est vraie. Et 95 chances sur 100 de prendre la bonne décision en acceptant H0 alors qu’elle est vraie. Pratiquement, on se donne une limite supérieure du risque de première espèce, le plus souvent: 1. 5% (significatif), 2. 1% (très significatif) ou 3. l pour mille (hautement significatif). 5 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG • La probabilité de commettre l’erreur de type II en testant H0 est , et (1-) représente la puissance du test. Donc pour tester une hypothèse donnée, et pour fixé, si on considère plusieurs tests, le plus puissant est celui qui aura la valeur minimum de (donc la valeur maximum de (1-)). • souvent on se contente de préciser l'importance du risque de première espèce, sans se soucier de l'existence d'une seconde possibilité d'erreur. 6 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 4 • Idéalement, et devraient être déterminés par l'expérimentateur préalablement à la recherche. • Une diminution du risque , augmente le risque pour tout échantillon donné. La probabilité de commettre l'erreur de seconde espèce décroît lorsque la taille de l'échantillon augmente. 7 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG Défaut d’homogénéité - Tests Statistiques Une série de données est réputée non homogène lorsqu’elle : • elle provient de la mesure d’un phénomène dont les caractéristiques évoluent durant la période de mesure ; • elle reflète deux ou plusieurs phénomènes différents. Dans le premier cas, les caractéristiques du phénomène varient et il est dit non stationnaire (variations climatiques ou problème d’appareillage) . Une série de données est dite homogène lorsqu’elle provient de la même population parente et que celle-ci est stationnaire. On distingue deux classes de tests: Les tests statistiques (paramétriques et non paramétriques) Les tests hydrologiques 8 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 5 Défaut d’homogénéité - Tests Statistiques • Test de Student Soit X une variable normale connue sur deux échantillons de taille N1 et N2 soit , les moyennes et écart-types calculés sur les deux échantillons 1 et 2. Soit La variable t suit une loi de probabilité de Student, dont le paramètre (appelé degré de liberté) vaut (N1+N2-2) . Selon la valeur de t et donc de la probabilité d’apparition d’une telle valeur, on décide s’il est plausible ou pas de considérer que les deux moyennes, deux estimations de celle de la population  (homogénéité des moyennes). • Si t calculé < tth (pour un nombre de degrés de liberté (N1+N2-2) et une probabilité au dépassement (/2)) pour un seuil de signification , les deux échantillons sont considérés comme homogènes. 9 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG • Exemple : Pour 17 ddl, la zone d’acceptation est -2.11<t<2.11. Si la valeur calculée t est égale à 2.60, elle se trouve dans la zone critique (ou zone de rejet) et donc les deux moyennes sont significativement différentes au niveau de signification de 5% Si on se place à un niveau de signification de 1%, on diminue les chances d’erreur de type I mais on agrandit la zone d’acceptation qui devient -2.898<t<2.898, dans ce cas l’hypothèse H0 est acceptée et on dira que les moyennes ne sont pas significativement différentes Défaut d’homogénéité - Tests Statistiques 10 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 6 Défaut d’homogénéité -Tests Statistiques • Test de Fisher Ce test permet de vérifier l’homogénéité des variances de deux échantillons issus de populations normales, en supposant que leurs moyennes sont identiques. Soit F suit une loi de probabilité de Fisher, de paramètres 1=N1-1 et 2=N2-1 • Si Fcalculé<F(1,2), les deux échantillons sont considérés comme homogènes pour une probabilité 1-/2. 11 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG Défaut d’homogénéité - tests hydrologiques • Méthode des doubles cumuls (double masse) Cette méthode consiste à porter sur un graphique les totaux pluviométriques annuels cumulés d’une station A (variable Y) en regard des totaux correspondants d’une station voisine B (variable X), elle exprime la régression entre : Si B est homogène, et que A l’est également, ce graphe doit être une droite (constance des coefficients de pente a et b de la régression entre les valeurs de A et B sur la période étudiée). Elle s’applique d’autant mieux que le coefficient de corrélation entre les valeurs de A et B est grand, et que b est différent de l’erreur moyenne de mesure. Son inconvénient majeur réside dans le caractère subjectif du choix du tracé des droites quand il y a hétérogénéité 12 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 7 Défaut d’homogénéité - tests hydrologiques • Méthode du cumul des résidus La méthode du cumul des résidus des variables chronologiques permet de vérifier l’homogénéité des séries, dans le but de déceler les erreurs éventuelles. Beaucoup plus puissante que la méthode des doubles masses, elle présente deux intérêts: Un aspect graphique permettant de faire une interprétation visuelle; Des seuils de probabilité qui renseignent sur les hypothèses de stationnarité. Aspect théorique (Bernier 1977) Considérons deux (02) séries chronologiques corrélées, dont les caractéristiques calculées sur l’échantillon observé sont: xi, i = 1, n : Variable de référence de moyenne et d’écart type sx y, i = 1,n : Variable à tester, de moyenne et de d’écart type sy rxy : Coefficient de corrélation entre les deux séries. On appellera ei le résidu de l’observation i: 13 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG Défaut d’homogénéité - tests hydrologiques Soit le cumul des résidus Zk donné par: on sait que : La moyenne des résidus est nulle d’où Zn=0 L’écart-type des résidus est donné par: Le tracé de Zk en fonction de k (appelé tracé du cumul des résidus) donne une courbe partant de (0,0) pour aboutir à (N,0) où chaque incrément de Z correspond au résidu de l’observation correspondante: Si les séries sont homogènes et si les observations sont indépendantes, le tracé de Zk en fonction de k peut nous donner une courbe oscillant autour de l’axe des abscisses. La variable Zk est une variable aléatoire de moyenne nulle et d’écart-type : 14 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 8 Défaut d’homogénéité - tests hydrologiques Si on se fixe par exemple un intervalle de confiance à 99 %, il y a une chance sur cent pour que Zk soit extérieur au segment : Avec u0.995 étant la variable réduite de Gauss pour une probabilité de non dépassement de 0.995 soit 2.57 15 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG Cumul des résidus Série hétérogène à un niveau de signification  Série homogène à un niveau de signification  16 Analyse et Modélisation Hydrologique Préparé par Pr. D. SOUAG 07/02/2021 9 Défaut d’homogénéité - tests hydrologiques Dans la pratique, un problème majeur se pose avec les méthodes hydrologiques étant celui du choix de la station de référence ou la variable témoin. C’est un choix important. Si on n’a aucune certitude sur la station de référence, on peut prendre comme variable de référence non pas une station, mais une combinaison linéaire de stations, ne comprenant évidemment pas la station à tester. Exploitation des résultats : • Supposons que le tracé mette en évidence une anomalie, On pourra ensuite uploads/Philosophie/ chapitre-iii-controle-et-critique-des-donnees.pdf

  • 17
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager