1 Climatologie et Statistique Par : Hassan HADDOUCH 2 La Statistique,… c’est qu
1 Climatologie et Statistique Par : Hassan HADDOUCH 2 La Statistique,… c’est quoi ? • La statistique est la science et la pratique de la production d'informations à partir de données empiriques quantitatives. • C’est la science de la collecte, de l’organisation et de l’interprétation de faits numériques, ce que l’on appelle les données (Moore et McCabe). 3 La démarche statistique Toute étude statistique se fonde sur une population formée de nombreux individus sur lesquels on peut observer des caractères. Le terme statistique recouvre deux techniques qu'il est essentiel de distinguer : • La statistique descriptive pallie simplement une faiblesse de l'esprit humain : l'impossibilité d'apprécier de manière synthétique le contenu d'une population nombreuse. Elle permet de procéder à des réductions statistiques faciles à interpréter : valeurs centrales, valeurs de dispersion, histogrammes, etc. 4 La démarche statistique • La statistique mathématique ou inférentielle a un objectif plus ambitieux : interpréter une population en utilisant une loi de probabilité. Dans cette démarche, le statisticien se fixe une hypothèse et détermine ensuite si celle-ci s'accorde avec les faits (matérialisés par des chiffres). Cette technique consiste à induire les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Les caractéristiques de l'échantillon, une fois connues, reflètent avec une certaine marge d'erreur possible celles de la population. 5 Vocabulaire statistique • Population: ensemble des personnes, objets ou éléments sur lesquels on veut effectuer l’étude statistique. • Individu: chacun des éléments de la population. • Caractère (variable) : caractéristique relative à chacun des individus de la population et sur laquelle on veut faire porter l ’étude. 6 7 8 Classification des données • qualitative : exprimée par une description naturelle du langage (ex: une couleur) • quantitative : exprimée par des nombres (ex: une taille) – Continue: valeurs dans un intervalle – Discrète: valeurs isolées 9 Classification des données • Caractère qualitatif : • Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de façon littérale ou par un codage sur lequel les opérations arithmétiques telles que moyenne, somme, ... , n'ont pas de sens. • Exemples : • Sexe de la personne interrogée, situation familiale, numéro de son département de naissance, ... • Etat du temps constaté à un endroit donné chaque jour (pluvieux, neigeux, beau, venteux, ...) 10 Classification des données • Caractère quantitatif : • Une variable statistique est quantitative si ses valeurs sont des nombres sur lesquels des opérations arithmétiques telles que somme, moyenne, ... ont un sens. • Exemples : • Taille, poids, salaire • Rendement • Note à un examen • PNB / habitant, espérance de vie, nombre d'habitants d'un ensemble de pays • température, pression, … 11 Variable continue • C'est une variable quantitative pouvant prendre par nature une infinité de valeurs, généralement tout un intervalle réel. • Exemples : • tailles, poids, salaires, surfaces cultivées, températures, ... 12 Variable discrète : • C'est une variable quantitative pouvant prendre par nature un nombre fini (ou dénombrable) de valeurs. • Exemples : • nombre d'enfants par famille • nombre de pièces d'un appartement • nombre de pièces défectueuses dans un lot de pièces mécaniques ... 13 Variable qualitative ordinale • C'est une variable qualitative dont les modalités sont naturellement ordonnées selon un ordre total : on peut dire que selon un certain sens la modalité A est moins forte que la B, qui est moins forte que la C, etc... • Exemples : • tailles de vêtement 0 1 2 3 ... mais la taille 2 ne signifie pas que le vêtement est 2 fois plus grand que celui de la taille 1 ! Il ne s'agit pas d'une variable quantitative discrète 14 Variable qualitative nominale • C'est une variable qualitative dont les modalités ne sont pas ordonnées. • Exemples : • la variable sexe peut être notée M F, 0 1 , ou 1 0 • la variable CSP : on ne peut pas classer les catégories socio- professionnelles selon un ordre préétabli. 15 Résumé 16 Statistique descriptive • La statistique descriptive forme une branche des statistiques qui supporte n’importe lesquelles des nombreuses techniques utilisées pour analyser un ensemble de données. Nous avons deux objectifs pour notre analyse statistique : • choisir une statistique qui montre comment différents individus semblent similaires. Le moyen d’atteindre cet objectif s’appelle la mesure de la tendance centrale. • choisir une autre statistique qui montre comment les individus diffèrent. Ce genre de statistique est souvent appelée une mesure de variabilité statistique. 17 Mesures de tendance centrale • La Moyenne : est la somme des valeurs numériques (de la liste) divisée par le nombre de ces valeurs numériques (caractère quantitatif). • Le mode : désigne la valeur la plus représentée d'une variable quelconque dans une population (ou classe modale) pour des classes. 18 Mesures de tendance centrale • La Médiane : est une valeur à laquelle 50% des valeurs observées sont inférieures et ce, en supposant que l'on ait, au préalable, rangé les valeurs observées de sorte qu'elles se trouvent indexées suivant l'ordre des valeurs croissantes (x1,x2,…xn). Elle n'est pas (sauf en cas de symétrie de la distribution) équivalente à la moyenne. 19 La Médiane (suite) • Si n est impair (2n+1 valeurs), la médiane correspond alors précisément à la donnée du milieu lorsque les données sont mises en ordre croissant (xn+1). • Si n est pair (2n valeurs), la médiane correspond alors à tout nombre situé entre les deux valeurs centrales des données mises en ordre croissant (xn et xn+1). 20 Les Quantiles • Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties égales. On définit notamment les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de même effectif. • On parlera ainsi du « centile 90 » pour indiquer la valeur séparant les premiers 90% de la population des 10% restants. 21 Mesures de dispersion • Maintenant que nous connaissons la tendance centrale d’une distribution, nous pouvons nous demander si les valeurs de la variable sont fortement concentrées autour de cette tendance centrale ou, au contraire, si elles sont très différentes, très dispersées. 22 L’Étendue • L’Étendue (R) : d’une distribution est la largeur totale de celle-ci. – R = Maximum - Minimum. – Pour une variable continue ou discrète avec valeurs regroupées en classes : • l ’étendue = borne supérieure de la dernière classe - borne inférieure de la première classe. 23 La Variance • La Variance : d’une distribution est la moyenne des carrés des écarts, par rapport à la moyenne, de toutes les valeurs de celle-ci. ( ) 2 n 1 i i 2 X n 1 σ ∑ = − = µ 24 L’Écart-type • L’Écart-type : d’une distribution est simplement défini comme étant la racine carrée de la variance. ( ) 2 n 1 i i X n 1 σ ∑ = − = µ 25 Interprétation de L’Écart-type • En général, on retrouve : – une grande proportion des données dans l ’intervalle [ µ - σ , µ + σ ] (souvent entre 50 et 70%), – souvent plus de 95% des données dans l ’intervalle [ µ - 2σ , µ + 2σ ], – toutes les données (ou presque 100%) dans l ’intervalle [ µ - 3σ , µ + 3σ ]. 26 Coefficient de corrélation Coefficient de corrélation (linéaire) : • Le coefficient de corrélation entre deux variables statistiques X et Y sur les mêmes individus est le nombre : • R = cov (X,Y)/sX sY • où cov ( X , Y ) est la covariance entre X et Y • et sX sY les écarts-types de X et Y. • Ce coefficient est toujours compris entre -1 et + 1. • S'il est proche de + 1 ou - 1 , X et Y sont bien corrélées, c'est-à-dire qu'elles sont liées entre elles par une relation presque affine ; le nuage de points est presque aligné le long d'une droite (croissante si r = + 1, décroissante si r = - 1). S'il n'y a aucun lien entre X et Y, ce coefficient est nul, ou presque nul. 27 Exemples : 28 Exemples 29 Représentation graphique des données • L'histogramme est une des nombreuses représentations graphiques de données statistiques possibles. • L'histogramme implique des classes souvent de même largeur et de hauteur variable pour donner une allure de la distribution qui peut fournir une compréhension intuitive du phénomène. 30 Histogramme (suite) 31 Loi Normale • La distribution de données la plus couramment utilisée est la distribution normale. Elle est symétrique et sous forme de cloche. Elle est utile car: – Beaucoup de données sont naturellement normales – Facile d’utilisation et de calcul – Hypothèse de normalité demandée – Théorème central limite. 32 Loi Normale (suite) • La loi normale est complètement spécifiée par 2 quantités (ou paramètres): – La moyenne µ – L’écart-type σ. • La connaissance de ces 2 valeurs nous permet de calculer l’aire uploads/Geographie/ climatologie-statistique.pdf
Documents similaires
-
83
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 06, 2021
- Catégorie Geography / Geogra...
- Langue French
- Taille du fichier 0.3250MB