LOGICIEL R VERSION 2.6.0.  PRISE EN MAIN     STATISTIQUES DE BASE ET DEMAR

LOGICIEL R VERSION 2.6.0.  PRISE EN MAIN     STATISTIQUES DE BASE ET DEMARCHE EXPERIMENTALE  ANALYSE DE DONNEES Non-supervisées Supervisées 2008-2009 Yves Le Roux Version 2 (01/02/2008) (avec utilisation de multiples supports disponibles sur Internet) 2 LOGICIEL R R est un logiciel de Statistique créé par Ross Ihaka & Robert Gentleman (1996, J. Comput. Graph. Stat.,5 :299-314). R est à la fois un langage et un environnement : les commandes sont exécutées grâce à des instructions codées dans un langage relativement simple, les résultats sont affichées sous forme de texte et les graphiques sont visualisées directement dans une fenêtre qui leur est propre. C’est un clone de S-plus basé sur le langage de programmation orienté objet S développé par les AT&T Bell Laboratories en 1988. Ce logiciel sert à manipuler des données, à tracer des graphiques et à faire des analyses statistiques sur ces données. Pourquoi utiliser R? Tout d’abord R est gratuit ! Mais c’est aussi un outil très puissant et très complet, particulièrement bien adapté pour la mise en oeuvre informatique de méthodes statistiques. Il est plus difficile d’accès que certains logiciels car il n’est pas conçu pour être utilisé à l’aide de “clics” dans des menus. Il faut au contraire passer du temps à apprendre la syntaxe et les commandes du logiciel. L’avantage est double : l’approche est pédagogique puisqu’il faut maîtriser la méthode statistique pour la mettre en oeuvre ; l’outil est très efficace lorsque l’on domine le langage S (on peut alors faire des manipulations très sophistiquées sur les données). R est une suite intégrée de composants logiciels pour la manipulation de données, le calcul et l’affichage de graphiques. Parmi d’autres choses, il a : - des procédures efficaces de traitement des données et des capacités de stockage de ces données - une suite d’opérateurs pour des calculs sur des tableaux et en particulier sur des matrices - une vaste et cohérente collection d’outils intermédiaires pour l’analyse de données - des capacités graphiques pour l’analyse de données et des possibilités d’affichage à l’écran ou sur papier - un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité, et des possibilités d’entrée-sortie. (En fait, la plupart des fonctions du système sont elles-mêmes écrites dans le langage S). R est plutôt un véhicule pour le développement interactif de nouvelles méthodes d’analyse de données. La compatibilité avec les versions antérieures n’est pas toujours respectée. Par conséquent, il vaut mieux considérer les programmes R comme éphémères. 3 R est un logiciel de calcul statistique distribuée selon la licence GNU General Public License. La version officielle actuelle est la version R 2.6.0. Elle est disponible dans les archives du réseau CRAN (Comprehensive R Archive Network) dont les sites de base sont : http://lib.stat.cmu.edu/R/CRAN/ http://stat.ethz.ch/CRAN/ On peut utiliser le miroir de l’université http://cran.univ-lyon1.fr/ Je remercie l’ensemble des personnes, groupes, communautés qui permettent, en autorisant l’utilisation de leurs cours-exemples-tutoriels, une approche opérationnelle de R sans pour autant en oublier les fondamentaux de la théorie statistiques. En particulier, ce manuel s’inspire (parfois beaucoup, parfois moins) de : Toute la suite des documents de formation de Mr. Bouchier, formateur INRA http://rstat.ouvaton.org/ Toute la suite des documents de formation (cours ou TD) proposés par une excellente équipe pédagogique de l’Univeristé de Lyon http://pbil.univ-lyon1.fr/R/fichestd http://pbil.univ-lyon1.fr/R/cours D’autres contributions http://math.univ-lille1.fr/~philippe/Anne-Philippe-cours-R.pdf. http://www.biostatisticien.eu/textes/gimenez.pdf http://www.ats.ucla.edu/stat/R/seminars/Repeated_Measures/repeated_measures.htm http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf Forums Un forum français d’aide http://forums.cirad.fr/logiciel-R Un forum anglais d’aide http://www.nabble.com/R-f13819.html 4 LOGICIEL R VERSION 2.6.0. PRISE EN MAIN 5 Environnement de travail Dans cible (clique droit) de l’icône R sur le bureau qui lance le programme : "C:\Program Files\R\R-2.5.1\bin\Rgui.exe" R_PROFILE="c:\logiciel R\Rprof.txt" Dans le répertoire de travail (ici c:\logiciel R\Rprof.txt), créer un fichier texte Rprof.txt Mettre dans ce fichier Rprof.txt : print("Cher utilisateur de R : BONJOUR !") # Affichage à l’ouverture de R setwd("C:/Logiciel R") # definition du répertoire de travail cat(paste("Working directory =",getwd(),"\n")) # affichage du repertoire de travail cat("Rprofile file =",Sys.getenv("R_PROFILE"),"\n") dirperm <- dirname(Sys.getenv("R_PROFILE")) Des fonctions très importantes getwd() : identification du répertoire de travail library() : permet de lister les différentes librairies disponibles ls() : La commande fait la liste des objets de l’espace de travail. ls.str() : caractérisation du type de variable en mémoire setwd() : changement du répertoire de travail en indiquant l’adressage setwd(dirname(file.choose())) : choix du ficher pour changer le répertoire de travail setwd("~") : répertoire de travail de l’utilisateur 6 R manipule des objets Les objets ont tous deux attributs intrinsèques : le mode et la longueur. Le mode il en existe quatre principaux : numérique, caractère, complexe, et logique, les objets peuvent être aussi des fonction ou expression Un vecteur est une variable.Un facteur est une variable catégorielle. Un array est un tableau à k dimensions. Une matrice est un cas particulier d’array avec k=2. Un data.frame est un tableau de données composé de un ou plusieurs vecteurs et/ou facteurs ayant tous la même longueur mais pouvant être de modes différents.Un ts est un jeu de données de type séries temporelles (time series) et comporte donc des attributs supplémentaires comme la fréquence et les dates. Une liste peut contenir n’importe quel type d’objet. Manipulation de données 7 Quelques exemples d’utilisation de ces fonctions 2+2 [1] 4 x <- 2 + 2 10 * x [1] 40 seq(2,12,by=2) [1] 2 4 6 8 10 12 seq(4,5,length=5) [1] 4.00 4.25 4.50 4.75 5.00 rep(1, 30) [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 seq(length=9, from=1, to=5) [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 gl(3, 5) [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 Lister et effacer les objets en mémoire Lister name <- "Laure" ; n1 <- 10 ; n2 <- 100 ; m <- 0.5 ls() [1] "m" "n1" "n2" "name" ls.str() : caractérisation du type de variable ls(pat = "m") : ne liste que les variables contenantla lettre m ls(pat = "^m") : ne liste que les variables commençant par la lettre m Effacer Effacement sélectif : rm(m) Effacement total : rm(list=ls()) Aide en ligne help.start() apropos("anova") Expressions mathématiques de base Gestion des indéterminations (évite ainsi les plantages…) de la division par 0 et des données manquantes 8 Inf + 1 [1] Inf 1/Inf [1] 0 Inf/0 [1] Inf Inf - Inf [1] NaN Inf/Inf [1] NaN 1/0 [1] Inf -1/0 [1] -Inf 0/0 [1] NaN NaN pour Not a Number. log(-1) [1] NaN NA + 3 [1] NA 4 * NA [1] NA NA pour Not Available. Notions de Fonctions De nombreuses fonctions mathématiques sont disponibles 9 Nous avons vu des exemples d’objets contenant des valeurs numériques. Ces objets sont des instances de classe « numeric » : x <- 2 + 2 class(x) [1] "numeric" Notion de vecteurs c(2,10,5,37,4,8) [1] 2 10 5 37 4 8 Ages<-c(10,18,25,60) ages[c(3,1)] [1] 25 10 ages[-3] [1] 10 18 60 v1 <- 1:4 v2 <- c(5,6,1,2) v1+v2 [1] 6 8 4 6 x=c(1,4,9) y=c(x,2,3) y [1] 1 4 9 2 3 Un vecteur peut-être de type caractère letters[c(3, 5, 7)] [1] "c" "e" "g" ind <- c(3, 5, 7) letters[ind] [1] "c" "e" "g" letters[8:13] [1] "h" "i" "j" "k" "l" "m" letters[c(1, 2, 1, 2)] [1] "a" "b" "a" "b" L’utilisation d’entiers négatifs permet d’exclure les éléments correspondants. letters[-5] [1] "a" "b" "c" "d" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" [17] "r" "s" "t" "u" "v" "w" "x" "y" "z" ind <- c(3, 5, 7) letters[-ind] [1] "a" "b" "d" "f" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" [17] "t" "u" "v" "w" "x" "y" "z" x <- 1:10 names(x) <- letters[1:10] x a b c d e f g h i j 1 2 3 4 5 6 7 8 9 10 x[c("a", "b", "c", "f")] a b c f 1 2 3 6 http://pbil.univ-lyon1.fr/R/cours/lang03.pdf Logiciel R version 2.4.1 (2006-12-18) –le 2007- 10 Création de Tableaux et matrices Les matrices (et plus généralement les tableaux de dimensions quelconques) sont stockées comme des vecteurs ayant des dimensions : Deux solutions pour le même résultats x <- 1:12 dim(x) <- c(3, 4) x ou x = matrix(c(1 :12),ncol=4) x [,1] [,2] [,3] [,4] [1,] 1 4 7 10 [2,] 2 5 8 11 [3,] 3 6 9 12 Les matrices sont créées avec la fonction matrix() à partir d'un vecteur. On doit fixer le nombre de colonnes ncol et/ou le nombre de lignes nrow. x = matrix(c(2,3,5,7,11,13),ncol=2) x [,1] [,2] [1,] 2 7 [2,] 3 11 [3,] 5 13 nrow(x) [1] 3 ncol(x) [1] 2 Par défaut la matrice est remplie colonne par colonne. Pour remplir ligne par ligne, on ajoute l'argument byrow=T y = matrix(c(2,3,5,7,11,13),ncol=2, byrow=T) y [,1] [,2] [1,] 2 3 [2,] 5 7 [3,] 11 13 On peut donner des noms aux lignes et aux colonnes avec les fonctions rownames() et colnames() 11 colnames(x) <- paste("colonne", 1:ncol(x)) x colonne1 colonne2 colonne3 colonne4 uploads/Litterature/ www-cours-gratuit-com-coursair-id5364.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager