1- introduction 1 1. Rappels statistiques et introduction Variable aléatoire (v
1- introduction 1 1. Rappels statistiques et introduction Variable aléatoire (v.a.) : fonction dont les résultats possibles sont connus mais dont le résultat final ne peut être déterminé, à priori, avant d'effectuer la mesure. ex. : - teneur de cuivre d'une carotte de 1 m - épaisseur d'une veine minéralisée - concentration d'un polluant dans l'eau souterraine - pH de l'eau de pluie Description d'une v.a. : sans connaître la valeur que prendra le résultat final, on peut parfois connaître la probabilité qu'une v.a. prenne chacun des résultats possibles. C'est la description la plus complète que l'on puisse faire de la v.a. La fonction qui décrit ces probabilités est la fonction de densité (pour les v.a. continues; pour les v.a. discrètes, c’est la fonction de masse). Propriétés : fX (x) > 0 , toute probabilité est positive ∫ , l’intégrale de la fonction de densité donne 1 - X f (x) dx = 1 ∞ ∞ ∫ , probabilité que x prenne une valeur comprise entre [a et b] a b X f (x) dx = P a X b ≤ ≤ ( ) Certaines quantités résument les caractéristiques principales de la variable aléatoire. *Mesures de tendance centrale: - mode : x tel que fx(x) est maximum - médiane : x tel que P(X < x) = 0.5 - moyenne (ou espérance mathématique) : X - X ou E [X] = x f (x) dx µ ∞ ∞ ∫ *Mesures de dispersion : -Variance : X 2 2 = E[(X - E[X] ) ] σ X 2 - 2 X = (x - E [X] ) f (x) dx σ ∞ ∞ ∫ -Écart-type : X X = σ σ 2 -Asymétrie : E X - E [X] 3 X σ 1- introduction 2 -Aplatissement : E X - E [X] 4 X σ Toutes ces quantités sont généralement, à priori, inconnues. On doit donc les estimer à partir d'un ensemble d'observations appelé l'échantillon (par abus de langage, on parlera souvent des échantillons pour désigner ces observations). À partir de l'échantillon, on peut construire des estimateurs: de la moyenne: 1 n x = x i=1 n i ∑ de la variance: 1 n ( x - x ) = i=1 n i 2 2 ∑ σ ou 1 n -1 ( x - x ) = s i=1 n i 2 2 ∑ de la fonction de densité : histogramme, de la fonction de densité cumulative : courbe des fréquences cumulées estimée par: rang (x x F (x) = P(X x) ≤ i)/n Une des caractéristiques importantes d'un estimateur est d'être sans biais i.e. d'avoir la même espérance mathématique que la quantité qu'il cherche à évaluer. Ex. : [ ] E [ X ] 1 n E X = X sans biais pour i=1 n i X est X ∑ ∴ µ µ de même, biaisé est ˆ que alors pour biais sans est s 2 2 x 2 σ σ 1- introduction 3 Passage à plus d'une variable : On peut aussi étudier et décrire le comportement simultané de plus d'une variable aléatoire. La fonction de densité conjointe : fxy (x,y) donne la probabilité que, simultanément X = x et Y = y. On a : - - XY XY 1 2 1 2 x x y y XY f (x, y) dx dy = 1 , f (x, y) P [ x X x , y Y y ] = f (x, y) dx dy 1 2 1 2 ∞ ∞ ∞ ∞ ∫ ∫ < < < < ∫ ∫ Deux mesures additionnelles permettent de décrire des caractéristiques importantes de fonction de densité conjointe. La covariance: Cov(X,Y) = E [ (X - ) (Y - ) ] X Y µ µ mesure la force du lien linéaire entre les variables X et Y. La corrélation XY X Y = Cov(X,Y) ρ σ σ comme la Cov mais avec des unités "normalisées" Propriétés de ρXY : -1 1 = XY XY aX,bY ≤ ≤ ρ ρ ρ (avec a et b des constantes quelconques ) Note : ρXY = 0 ---> absence de lien linéaire ≠ indépendance de x et y (en effet, on a indépendance ssi fXY(x,y) = fX(x).fY(y)). Par contre, l'indépendance de X et Y ---> ρXY = 0. L'interprétation propre à la géostatistique Les v.a. sont régionalisées i.e. elles dépendent de leur localisation dans le gisement. Z(x) Ex. Z : teneur de cuivre mesurée au point x. (ou dans un volume centré en x) Différentes visions du même gisement : G • collection infinie de valeurs ponctuelles G G Z = 1 G Z(x) dx ∫ 1- introduction 4 ZG est la teneur moyenne du gisement obtenue en faisant la moyenne de toutes les valeurs ponctuelles. • collection finie de petits blocs v G i=1 N v Z = 1 N Z (x) ∑ • collection finie de gros blocs V G V i M Z = 1 M Z x ( ) = ∑ 1 et ainsi de suite... Le gisement est donc assimilé à un ensemble fini ou infini (cas ponctuel) de variables aléatoires. Si on connaît le comportement de la variable aléatoire au niveau ponctuel (ou quasi-ponctuel) alors on peut aussi décrire le comportement de Zv, ZV et ZG. Cette collection de variables aléatoires s'appelle fonction aléatoire. Le gisement en est une réalisation limitée dans le temps et dans l'espace. On cherchera à caractériser Z(x) pour pouvoir dire quelque chose sur Zv, ZV et ZG. Support des observations : Dans la pratique, Z(x) ne sera jamais mesuré sur un support ponctuel mais sur un support physique relativement très petit par rapport à la taille du gisement (disons v avec v << G). Il est de toute première importance de s'assurer que toutes les observations proviennent de supports identiques. En effet, les statistiques habituelles calculées sur des supports différents n'ont aucun sens physique précis. Ex. Z1 Z2 Z3 Z4 La teneur de la carotte entière n’est pas donnée par la simple moyenne arithmétique des teneurs des bouts de carotte; i.e.: c i=1 4 i Z 1 4 Z ≠ ∑ De plus, on pourrait démontrer que Var (Z1) > Var (Z3) > Var (Z4) > Var (Z2). Les variances sont inversement proportionnelles aux tailles des supports. Ex.: Sans perte de généralité, supposons que les valeurs des teneurs de cuivre mesurées dans des carottes de 1 m ne montrent aucune corrélation d'une carotte à l'autre (i.e. Cov(Z1,Z1’ )=0). Supposons que l'on regroupe les carottes de 1 m en carottes de 2 m. i.e. la teneur moyenne d’une carotte de 2 mètres (Z2 ) formée de deux carottes de 1m. (Z1 et Z1’) est: Z2=(Z1+Z1’ ) / 2 Si on avait 1- introduction 5 Var (Z ) = = Var ( Z ) 1 1 2 1 σ ' on aura maintenant Var (Z ) = 2 2 1 2 σ en effet [ ] Var (Z ) = Var 1 2 ( Z + Z ) = 1 4 Var ( Z ) + Var ( Z ) + 2 Cov ( Z , Z ) = 1 2 2 1 1 1 1 1 1 2 ' ' σ 1' S'il y a des corrélations entre les carottes, on aura quand même Var (Z2) < Var (Z1). On voit donc que la distribution statistique d'une v.a. est toujours définie en relation avec un support physique. Quelques propriétés des distributions normales et lognormales : Normale : Z N ( , ) Z - N (0 ,1) 2 → → µ σ µ σ Une table unique d'une N(0,1) suffit pour calculer les probabilités de toute loi normale. La fonction de densité est: 1 2 e-1 2 z - 2 σ π µ σ Note: La moyenne, la médiane et le mode d'une loi normale sont égaux à µ. Lognormale : Z est lognormale avec moyenne "m" et variance s2 si ln Z ~ N (u , ß2). Lien entre m, s2 et u , ß2 m = e = m (e 1) 2 2 µ β β σ + − 2 2 2 Inversant les relations, on obtient: β σ µ β 2 2 2 2 1 2 = + = − ln ln( ) m m et Note: Pour la loi lognormale, la médiane vaut et le mode vaut e . µ e 2 β − µ Application des lois normale et lognormale: réserves en fonction d'une teneur de coupure c. Notons : T(c) = tonnage au-dessus de la teneur de la coupure. 1- introduction 6 Q(c) = quantité de métal au-dessus de la coupure. m(c) = teneur moyenne de ce qui est au-dessus de c. T(c) en termes statistiques peut s'écrire P (Z uploads/Geographie/ introduction-geostatistique.pdf
Documents similaires










-
29
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jul 26, 2022
- Catégorie Geography / Geogra...
- Langue French
- Taille du fichier 0.2727MB