INTRODUCTION La statistique est l'étude de la collecte de données, leur analyse

INTRODUCTION La statistique est l'étude de la collecte de données, leur analyse, leur traitement, l'interprétation des résultats et leur présentation afin de rendre les données compréhensibles par tous. C'est à la fois une science, une méthode et un ensemble de techniques. Remarquons que la statistique est parfois notée « la Statistique », ce qui permet de différencier cette science avec une statistique. La statistique est pour les uns un domaine des mathématiques, pour les autres (en particulier les anglo-saxons) une discipline à part entière hors des mathématiques, enfin de plus en plus, elle fait partie de ce que l'on appelle aujourd'hui la Sciences des données. Elle possède une composante théorique ainsi qu'une composante appliquée. La composante théorique s'appuie sur la théorie des probabilités et forme avec cette dernière, les sciences de l'aléatoire. La statistique appliquée est utilisée dans presque tous les domaines de l'activité humaine : ingénierie, management, économie, biologie, informatique, etc. La statistique utilise des règles et des méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées, souvent comme composante d'une aide à la décision. Le statisticien a pour profession la mise au point d'outils statistiques, dans le secteur privé ou le secteur public, et leur exploitation généralement dans un domaine d'expertise. Ainsi le domaine nous concernant dans le cadre de notre travail est, celui de la géologie .En effet la statistique est couramment utilisée par le géologue afin de trouver réponses à certain question. C’est en cela que le thème suivant nous a été soumis : ‹‹analyse statistique bivariée : atouts pour le géologue››. Dans la suite de notre travail nous mettrons en évidence des généralités sur la statistique, définirons certain terme et ferons ressortir des atouts de l’analyse statistique bivariée en géologie, I .GENERALITES I. 1. OBJET DE LA STATISTIQUE Le but de la statistique est de dégager les significations de données, numériques ou non, obtenues au cours de l'étude d'un phénomène. Il faut distinguer les données statistiques qui sont les résultats d'observations recueillies lors de l'étude d'un phénomène, et la méthode statistique qui a pour objet l'étude rationnelle des données. La méthode statistique comporte plusieurs étapes. I. 1. 1. La statistique descriptive ou déductive. C'est l'ensemble des méthodes à partir desquelles on recueille, ordonne, réduit, et condense lesdonnées. A cette fin, la statistique descriptive utilise des paramètres, ou synthétiseurs, des graphiques et des méthodes dites d'analyse des données (l'ordinateur a facilité le développement de ces méthodes). I. 1. 2. La statistique mathématique ou inductive C'est l'ensemble des méthodes qui permettent de faire des prévisions, des interpolations sur une population à partir des résultats recueillis sur un échantillon. Nous utilisons des raisonnements inductifs c'est-à-dire des raisonnements de passage du particulierau général. Cette statistique utilise des repères de référence qui sont les modèles théoriques (lois deprobabilités). Cette statistique nécessite la recherche d'échantillons qui représentent le mieux possible la diversité de la population entière ; il est nécessaire qu'ils soient constitués au hasard ; on dit qu'ils résultentd'un tirage non exhaustif. L'étude sur échantillon se justifie pour réduire le coût élevé et limiter la destruction d'individus pour obtenir la réponse statistique. DEFINITIONS Analyse bivariée : c’est l'association entre deux variables à différents niveaux de mesure (X 2coefficient de contingence, coefficients j et l de Guttman, coefficient de différenciation, coefficient de corrélation de rang de Spearman, le t de Kendall, le g de Goodman-Krushal, le coefficientpoint bisérial et multisérial, lecoefficient de corrélation de Pearson...) et les tests d'inférence pour des mesures observées sur deux groupes et sur plus de deux groupes. Géologie : (du grec ancien gê= la Terre; et logos= parole, raison) c'est la science qui traite de la composition, de la structure, de l'histoire et de l'évolution des couches externes de la Terre, et des processus qui la façonnent. La géologie est une discipline importante parmi les sciences de la Terre. Géologue: (n.m. ou f.) : celui ou celle, qui étudie la géologie. Le géologue est un homme de science et de terrain qui étudie la Terre en surface et en profondeur. C’est également un homme de laboratoire, qui analyse ses observations, les données recueillies et propose de nouvelles interprétations ou théories. II. ANALYSE BIVARIEE Elles consistent à étudier les variables prises en couple, via des techniques descriptives ou probabilistes. L’objectif de ces études est: la mise en évidence d’un lien ou d’une absence de lien entre 2 variables; lorsqu’il existe, l’étude de ce lien (sens, intensité). Un couple de variables qualitatives est décrit par ses fréquences conjointes dans un tableau triscroisés. Les fréquences obtenues peuvent être calculées : Par rapport à l’effectif total; Par rapport aux effectifs marginaux, par ligne ou par colonne II.2.Mesure du lien entre deux variables qualitatives Le lien existant entre deux variables quantitatives peut se mesurer à l’aide de l’écart à l’indépendance ɸ2 ou de sa version normalisée appeléeVdeCramer: V = 0: les variables sont indépendantes; V = 1: les variables sont (totalement) liées Test du Khi-Deux Lorsque les données sont issues d’un échantillon, le test du khi deux permet de vérifier l’existence du lien. Lorsque la signification (sig.)decetestestinférieureà5%ou10%, onpeutconsidérerqu’ilexisteunliensignificatifentrelesdeuxvariables. L’étude plus précise de ce lien utilise une technique multidimensionnelle:l’analysedescorrespondances. Lien entre deux variables quantitatives Pour mesurer le lien entre X et Y, on utilise le coe cient de corrélation linéaire: ffi r¿∑(xi−x)( yi−y) Qx Qy £[−1;+1] Il mesure l’intensité de la liaison linéaire: Y = aX + b Discussion suivant les valeurs de r r=0 il n’existe pas de lien (linéaire) entre X et Y r=1 :il existe un lien positif entre X et Y: Y = aX+b avec a > 0 r = −1 : il existe un lien négatif entre X et Y: Y = aX+b avec a < 0 Couple quantitatif La description exhaustive d’un couple de variables quantitatives n’est pas possible. On peut par contre -en faire une représentation graphique ; - étudier le lien entre les deux variables Régression linéaire La régression linéaire a pour but d’étudier en détail la liaison linéaire entre deux (2) variables quantitatives à partir du modèle: Y = aX + b+ Erreur Total = Régression + Résidu Elle a pour but de vérifier la qualité de l’ajustement linéaire; d’estimer les paramètres a et b. Couple Quali/Quanti L’étude du lien entre une variable quantitative et une variable qualitative: Analyse de la variance(ANOVA). Si les deux variables sont liées, la variable quantitative aura des moyennes significativement différentes sur chacun des groupes définis par la variable qualitative. L’hypothèse H0 est du type: MoyenneG1 = MoyenneG2 = MoyenneG3 Dispersion Un paramètre statistique est dit de dispersion s'il s'agit d'un nombre clé résumant la plusou moins grande disparité des observations, leur plus ou moins grande variabilité departet d'autre de la tendance centrale : étendue, écart-type sont des paramètres dedispersion. Distribution Ensemble des valeurs, modalités ou classes d'une variable statistique, et des effectifs oufréquences associées. Distribution conditionnelle La distribution conditionnelle d'une variable Y, pour X fixé, (X égal à xi, modalité ou valeur, ou X appartenant à une classe donnée) est la distribution statistique des valeurs de Y, en se limitant aux individus pour lesquels X est égal à xI (ou appartient à une classe donnée). Distribution marginale Distribution d'une variable statistique, obtenue dans la marge d'un tableau decontingence, en ajoutant l’effective ligne par ligne, ou colonne par colonne. Intervalle de confiance de la moyenne inconnue d'une population normale d'écart-type inconnu Loi de Student Considérons (ν+1) variables aléatoires normales, réduites, indépendantes entre elles. Désignons les par U, U1 , ..., Ui , ..., Uν. La variable: Tν = U / √(1/ν ∑i=1 νUi²) suit, par définition, une loi de Student à ν degrés de liberté. En remarquant que: ∑i=1 νUi² suit une loi du χ² à ν degrés de liberté, on peut encore écrire Tν sous la forme: Tν = U / √(χν²/ν) où U et χν² sont des variables indépendantes qui suivent respectivement une loi normale réduite et une loi du χ² à ν degrés de liberté. Pour ν = 1, la loi de Student s’identifie à une loi appelée la loi de Cauchy connue pour n’avoir ni moyenne, ni variance finies. On montre d’autre part que, lorsque ν → ∞, la loi de Student tend vers une loi normale réduite. Mais, pour ν fini, elle est plus étalée que la loi normale, sa variance (pour ν > 2) étant égale à ν/(ν-2) >1. Il existe des tables donnant, pour un nombre de degrés de liberté donné, et pour des seuils de probabilité α fixés les valeurs t telles que: Prob{|T| > t} = α. Loi de la moyenne d’un échantillon extrait d’une population normale d’écart- type inconnu En notant σ*² l’estimateur sans biais de σ²: σ*² = n/(n-1) s² = 1/(n-1) ∑i=1 n (xi-m)² nous allons montrer que la quantité: t= m-μ / (σ*/√n) est une réalisation d’une variable de Student à (n-1) degrés de liberté. En effet, la variable: U= Mn-μ / (σ/√n) suit une loi normale réduite puisque, si les Xi suivent une loi normale de moyenne μ et d'écart-type σ, Mn suit une loi normale de moyenne μ et uploads/Geographie/ expose-stat-revu 1 .pdf

  • 22
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager