Cours Analyse et Exploitation des données avec R (Licence 3 en Sciences de l’Ea

Cours Analyse et Exploitation des données avec R (Licence 3 en Sciences de l’Eau et de l’Environnement) Dr Ousmane DIANKHA Université Iba Der Thiam de Thiès Contenu du cours 1. Rappel : Statistique descriptive univariée 2. Manipulation de R 3. Analyse de données Modalités de contrôle des connaissances •Contrôles continus 40% •Examen final 60% Objectif du cours Ce vise principalement à: Familiariser les apprenants avec le logiciel R et Rstudio Permettre aux apprenants de pouvoir procéder à l’exploitation et à des analyses préliminaires de données avec R ou Rstudio Rappels sur la statistique descriptive univariée La statistique descriptive est la branche de la Statistique qui regroupe de nombreuses techniques utilisées pour décrire un ensemble relativement important de données. L'objectif de la statistique descriptive est de décrire, c'est-à-dire de résumer ou représenter, par des statistiques, les données disponibles quand elles sont nombreuses. Rappels sur la statistique descriptive univariée Toute description d'un phénomène nécessite d'observer ou de connaître certains aspects sur ce phénomène. •Les observations disponibles sont toujours constituées d'ensemble d'observation synchrones. Par exemple: une température, une pression et une mesure de densité à un instant donné. Les connaissances disponibles sont quant à elles constituées de formules qui relient certaines variables. Par exemple la loi des gaz parfaits ρ= m/V (T, P). Les données disponibles Rappels sur la statistique descriptive univariée Il est assez compliqué de définir la meilleure description possible d'un phénomène. Dans le cadre des statistiques, il s'agira de fournir toute l'information disponible sur le phénomène en moins de chiffres et de mots possibles. La question de la description visuelle se pose aussi, mais nous la mettrons provisoirement de côté. L'article Visualisation des données, y répond plus directement. Du point de vue statistique la description d'un phénomène considère que les observations disponibles sont différentes réalisations du même phénomène abstrait. La description Rappels sur la statistique descriptive univariée Description intrinsèque d'une distribution d'observations Voici quelques statistiques simples permettent de décrire la distribution d’une variable: la moyenne la médiane le mode le maximum le minimum l'écart type (et la variance) des quantiles Les deux premiers sont souvent nommé critères de position', et les autres entrent plutôt dans la catégorie des critères de dispersion.' Rappels sur la statistique descriptive univariée La moyenne : La moyenne arithmétique est la somme des valeurs de la variable divisée par le nombre d'individus : La médiane : La médiane est la valeur centrale qui partage un échantillon en 2 groupes de même effectif : 50% au dessus et 50% en dessous. La médiane peut avoir une valeur différente de la moyenne. Description intrinsèque d'une distribution d'observations Rappels sur la statistique descriptive univariée Écart-type ( ): c'est la racine carrée de la variance. Minimum et maximum : valeur la plus faible et valeur la plus élevée dans un échantillon. Le mode : Le mode correspond à la réalisation la plus fréquente. La Variance : La variance empirique corrigée pour le carré de l'écart type (ou variance) Description intrinsèque d'une distribution d'observations Manipulation de R Présentation de R R est un langage orienté vers le traitement de données et l’analyse statistique dérivé du langage S. Il est développé depuis une vingtaine d’années par un groupe de volontaires de différents pays. C’est un logiciel libre1, publié sous licence GNU GPL. L’utilisation de R présente plusieurs avantages : • c’est un logiciel multiplateforme, qui fonctionne aussi bien sur des systèmes Linux, Mac OS X ou Windows ; • c’est un logiciel libre, développé par ses utilisateurs et modifiable par tout un chacun ; • c’est un logiciel gratuit ; • c’est un logiciel très puissant, dont les fonctionnalités de base peuvent être étendues à l’aide de plusieurs milliers d’extensions ; • c’est un logiciel dont le développement est très actif et dont la communauté d’utilisateurs ne cesse de s’élargir ; • les possibilités de manipulation de données sous R sont en général largement supérieures à celles des autres logiciels usuels d’analyse statistique ; • c’est un logiciel avec d’excellentes capacités graphiques et de nombreuses possibilités d’export ; • avec Rmarkdown2, il est devenu très aisé de produire des rapports automatisés dans divers format (Word, PDF, HTML, …) ; • R est de plus utilisé dans tous les secteurs scientifiques, y compris dans le domaine des analyses d’enquêtes et, plus généralement, des sciences sociales. Manipulation de R Comme rien n’est parfait, on peut également trouver quelques inconvénients : • le logiciel, la documentation de référence et les principales ressources sont en anglais. Il est toutefois parfaitement possible d’utiliser R sans spécialement maîtriser cette langue ; • il n’existe pas encore d’interface graphique pour R équivalente à celle d’autres logiciels comme SPSS ou Modalisa. R fonctionne à l’aide de scripts (des petits programmes) édités et exécutés au fur et à mesure de l’analyse et se rapprocherait davantage de SAS dans son utilisation (mais avec une syntaxe et une philosophie très différentes). Ce point, qui peut apparaître comme un gros handicap, s’avère après un temps d’apprentissage être un mode d’utilisation d’une grande souplesse ; • comme R s’apparente davantage à un langage de programmation qu’à un logiciel proprement dit, la courbe d’apprentissage peut être un peu « raide », notamment pour ceux n’ayant jamais programmé auparavant. Présentation de R Installation de R Pour une installation sous Windows, on se rendra sur cette page : http://cran.r-project.org/bin/windows/ base/ et l’on suivra le premier lien pour télécharger le programme d’installation. Une fois le programme d’installation lancé, il suffira d’installer R avec les options par défaut1. Pour Mac OS X, les fichiers d’installation sont disponibles à http://cran.r-project.org/bin/macosx/. Si vous travaillez sous Linux, vous devriez pouvoir trouver R via votre gestionnaire de paquets, cela pouvant dépendre d’une distribution de Linux à une autre. Manipulation de R Installation de RStudio Une fois R correctement installé, rendez-vous sur http://www.rstudio.com/products/rstudio/download/ pour télécharger la dernière version stable de RStudio. Plus précisément, il s’agit de l’édition Open Source de RStudio Desktop (en effet, il existe aussi une version serveur). Manipulation de R L’interface de RStudio est divisée en quatre quadrants : • le quadrant supérieur gauche est dédié aux différents fichiers de travail; • le quadrant inférieur gauche correspond à ce que l’on appelle la console, c’est-à-dire à R proprement dit ; Manipulation de R Présentation de RStudio • le quadrant supérieur droit permet de connaître la liste des objets en mémoire ou environnement de travail (onglet Environment) ainsi que l’historique des commandes saisies dans la console (onglet History) ; • le quadrant inférieur droit affiche la liste des fichiers du répertoire de travail (onglet Files), les graphiques réalisés (onglet Plots), la liste des extensions disponibles (onglet Packages), l’aide en ligne (onglet Help) et un Viewer utilisé pour visualiser certains types de graphiques au format web. Manipulation de R Présentation de RStudio Manipulation de R L’opérateur <- est appelé opérateur d’assignation. Manipulation de R On peut utiliser autant d’objets qu’on veut. Ceux-ci peuvent contenir des nombres, des chaînes de caractères (indiquées par des guillemets droits doubles " ou simples ' ) et bien d’autres choses encore : Manipulation de R IMPORTANT Les noms d’objets peuvent contenir des lettres, des chiffres, les symboles . et _ . Ils doivent impérativement commencer par une lettre (jamais par un chiffre). R fait la différence entre les majuscules et les minuscules, ce qui signifie que x et X sont deux objets différents. On évitera également d’utiliser des caractères accentués dans les noms d’objets. Comme les espaces ne sont pas autorisés on pourra les remplacer par un point ou un tiret bas. Manipulation de R Vecteurs Imaginons maintenant que nous avons interrogé dix personnes au hasard dans la rue et que nous avons relevé pour chacune d’elle sa taille en centimètres. Nous avons donc une série de dix nombres que nous souhaiterions pouvoir réunir de manière à pouvoir travailler sur l’ensemble de nos mesures. Un ensemble de données de même nature constituent pour R un vecteur (en anglais vector) et se construit à l’aide d’une fonction nommée c. On l’utilise en lui donnant la liste de nos données, entre parenthèses, séparées par des virgules : R> tailles <- c(167, 192, 173, 174, 172, 167, 171, 185, 163, 170) Ce faisant, nous avons créé un objet nommé tailles et comprenant l’ensemble de nos données, que nous pouvons afficher en saisissant simplement son nom : R> tailles [1] 167 192 173 174 172 167 171 185 163 170 Des fonctions Pour aller un peu plus loin nous allons aborder, après les objets, l’autre concept de base de R, à savoir les fonctions. Une fonction se caractérise de la manière suivante : • elle a un nom ; • elle accepte des arguments (qui peuvent avoir un nom ou pas) ; • elle retourne un résultat et peut effectuer une action comme dessiner un graphique ou lire un fichier. Dans la ligne suivante : R> reponse <- c("Bac+2", "Bac", "CAP", "Bac", "Bac", "CAP", "BEP") Manipulation de R Des fonctions Manipulation de R R> tailles <- c(167, 192, 173, 174, 172, 167, 171, 185, 163, 170) Essayons de déterminer sa taille (nombre d’éléments uploads/Management/ cours-analyse-et-exploitation-des-donnac-es-licence.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jul 13, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.1238MB