Avant-propos Ce manuel a une approche traditionnelle mais moderne de l'enseigne

Avant-propos Ce manuel a une approche traditionnelle mais moderne de l'enseignement des probabilités et statistiques. Lorsqu'il est combiné avec les systèmes nouvellement développés pour l'apprentissage collaboratif tels que « Moodle, Google Classroom, Google drive etc.. », il est bien adapté aux formats d'enseignements modernes, mais il sert également bien si l’enseignant préfère une approche plus traditionnelle. Ce système d'apprentissage collaboratif peut être téléchargé à partir de la plateforme « Moodle ». Les fichiers sont disponibles uniquement pour les conférenciers et contiennent des problèmes supplémentaires avec des fichiers de solution séparés pour chaque partie. Le système est particulièrement destiné à l'étudiant moyen, et nos propres étudiants vont certainement l’apprécier. Ce manuel est organisé en trois parties. Chaque partie résume tous les chapitres y afférents. Dr. B. SAHLI Partie 1 : Statistiques descriptives 1.1 Population et échantillons La plupart des enquêtes statistiques commencent par une collection de chiffres sous une forme ou une autre. On peut imaginer que l'on collecte des données pour un sondage, ou que l'on collecte des données pour examiner les revenus d'une entreprise, les possibilités sont infinies. Une telle collecte de données peut cependant se faire de deux manières principalement différentes. Une option consiste à collecter toutes les informations pertinentes. Dans un sondage, cela signifie que nous demandons à tout le monde, ou que nous examinons chaque revenu d'une entreprise. La tâche d'un statisticien est alors de trouver un bon moyen de présenter les chiffres pour rendre le contenu facile à interpréter pour tous. Dans de nombreux cas, il peut ne pas être pratique ou même impossible de collecter toutes les informations. Dans de tels cas, nous devons nous contenter d’un échantillon. Dans un sondage, cela signifie que nous ne demandons qu'à une partie de la population, et en comptabiliser les résultats, nous ne pourrions vérifier que certains gains choisis au hasard. Cela place le statisticien dans une position différente. Il doit examiner les résultats, mais en plus juger si les effets au sein de l'échantillon peuvent être généralisés au reste de la population. Dans quelle mesure pouvons- nous avoir confiance dans les effets observés dans l’échantillon ? Le problème est que les éléments de l'échantillon peuvent différer du reste de la population de manière systématique. Nous appelons ces différences : aléas de la sélection. Exemple 1.1 : Lors d'une élection, un total de 2 521 879 votes ont été exprimés. Le parti A a obtenu 612632 voix, le parti B a obtenu 534852 voix, le parti C a obtenu 369236 voix, le parti D a obtenu 316456 voix et le parti E a obtenu 312839 voix. Ces chiffres sont des faits. Comment les présenter de manière transparente ? Une solution courante consiste à représenter les nombres en pourcentages, c'est-à-dire A : 24.3% B : 21.3% C : 14.6% D : 12.5% E : 12.4% Un affichage graphique sous forme d'histogramme donne une meilleure vue d'ensemble, voir Fig. 1.1. Fractions Fig. 1.1: Diagramme en bâtons Lorsque nous avons trié les nombres de manière à ce que le plus grand nombre vienne en premier avec les autres nombres dans l'ordre décroissant, il est habituel d'appeler le graphique un diagramme de Pareto. Cela rend les informations faciles à lire et est souvent une bonne idée. Alternativement, nous pouvons afficher les nombres sous forme de graphique à secteurs (Diagramme en Camembert), voir Fig. 1.2. Fig. 1.2 : Diagramme en camembert Dans un diagramme à secteurs (ou en camembert), la taille des nombres est représentée par la zone du secteur. Cela donne une impression visuelle des chiffres : on peut, par exemple, voir que les partis A et B ensemble n'ont pas obtenu la majorité des voix. Nous avons vu qu'il est possible d'afficher les mêmes informations de plusieurs manières différentes. Il n'y a cependant aucune raison de remettre en question les chiffres. Les faits sont incontestés et donnent le résultat exact de l'élection. Dans ce cas, il n'y a pas d’aléas de sélection. 1.2 La médiane Lorsque nous avons collecté des données, il est important de présenter les résultats de manière transparente. Supposons que nous ayons collecté des données sur le retour de 7 stocks différents. Les chiffres que nous avons recueillis étaient les suivants : 2.7%; 9.2%; 11.4%; 4.6%; 5.2%; 5.6%; -2.4% Cela donne une image plutôt désordonnée des données. L'image devient plus claire si nous trions les nombres par ordre croissant : -2.4%; 2.7%; 4.6%; 5.2%; 5.6%; 9.2%; 11.4% Nous pouvons maintenant conclure que les rendements variaient de -2.4% à 11.4%. Nous pouvons procéder ainsi pour décrire les extrêmes des données. Cependant, les extrêmes ne donnent pas nécessairement une bonne image de l'ensemble des données. Il peut très bien arriver que les extrêmes soient quelque peu spéciaux et pas vraiment typiques des données. Nous avons besoin d'autres concepts qui offrent des informations plus précises. La médiane est un exemple de ce type et est définie grossièrement comme un nombre tel que la moitié des observations sont plus petites tandis que la seconde moitié est plus grande. La médiane de l'ensemble de données ci-dessus est donc de 5.2%. Ce chiffre nous indique que la moitié des fiducies unitaires ont obtenu un rendement de 5.2% ou mieux, et que l'autre moitié a obtenu un rendement de 5.2% ou moins. La définition précise de la médiane est la suivante : Définition 1.1 : La médiane d'une collection de n nombres/observations ordonnés par ordre croissant est : • Le numéro de l'observation si n est un nombre impair. • Le point médian entre l'observation et l'observation + 1 si n est pair. Exemple 1.2: Trouvez la médiane des nombres 1.5% ; 2.3% ; -3.4% ; -5.6% ; 0.3% ; -3.4% ; 3.2% ; 2.2%. Solution : Nous écrivons d'abord ces nombres dans l'ordre croissant -5.6% ; -3.4% ; -3.4% ; 0.3% ; 1.5% ; 2.2% ; 2.3% ; 3.2%. Dans ce cas, nous avons n = 8 observations. Puisque n est pair, la médiane est le point médian entre les observations 4 et 5, c'est-à-dire Médiane = = 0.9%. Proprement dit, il n'est pas nécessaire de traiter les chiffres lorsque nous n'avons que quelques observations. La situation est bien différente si nous avons un grand nombre de données. On peut par exemple imaginer que nous avons collecté des données auprès de 1451 fiducies unitaires différentes. Il ne sert à rien d'imprimer tous ces chiffres. S'il s'avère que les rendements varient de -11.9% à 7.7% avec une médiane de 10.5%, on peut rapidement former une image des données. Nous pouvons conclure qu'au moins la moitié de ces fiducies ont obtenu de très mauvais résultats, c'est-à-dire pas mieux que 10.5%. La fiducie avec un rendement de 7.7% était- elle une exception rare ou de nombreuses fiducies ont-elles évoluées à ce niveau ? Pour répondre à ces questions, nous avons besoin d'informations au-delà de la médiane. 1.3 Quartiles et mode Les quartiles fournissent des informations supplémentaires sur les données. En gros, nous trouvons les quartiles lorsque nous divisons les nombres (triés par ordre croissant) en quatre groupes également grands. Nous appelons la transition entre les deux premiers groupes le premier quartile, la transition entre les deux groupes du milieu est la médiane, et la transition entre les deux derniers groupes est le troisième quartile. Si n+1 est divisible par 4, le premier quartile est le numéro d'observation et le troisième quartile est le numéro d'observation 3. . La définition générale est un peu plus compliquée que nous éluciderons dans les exercices, mais les calculs sont entièrement automatisés dans les programmes informatiques et il n'y a aucune raison d'étudier cela en détail. Le concept ne fournit de toute façon qu'une image approximative des données, et la rugosité ne change pas si nous nous focalisons sur les détails. Nous revenons à l'exemple ci-dessus où nous avons observé le retour de 1451 unités de fiducie. Si nous trions les retours par ordre croissant, nous obtenons : = 363 et 3. = 1089 Le premier quartile est donc le numéro d'observation 363 et le troisième quartile est l'observation 1089. À titre d'exemple, supposons que le premier quartile est -10.7% et que le troisième quartile est -9.8%. On sait alors qu'environ la moitié des fiducies fonctionnent entre ces deux niveaux. Cela améliore l'image par rapport au cas où nous ne connaissions que la médiane. Nous sommes également en mesure de conclure qu'au plus un quart des fonds (ceux situés au-dessus du troisième quartile) se comportent bien. Cela nous montre que les informations sur les quartiles clarifient les grandes tendances de nos données. La distance entre le premier et le troisième quartile est appelée intervalle interquartile. Si l'intervalle interquartile est petit, nous savons qu'environ la moitié des données sont proches les unes des autres. L'intervalle interquartile est l'un des nombreux exemples de la façon de mesurer la dispersion de nos données. Nous avons vu que les quartiles permettent d'avoir une meilleure vue d'ensemble des données, mais certainement pas une solution complète, on peut toujours procéder pour présenter plus de détails. Le défi est de concentrer les principales caractéristiques de l'ensemble de données uploads/Geographie/cours-proba-stat-b-sahli 1 .pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager