Tutoriel Stata Moussa DABO Octobre 2017 1 Introduction Stata est un puissant lo

Tutoriel Stata Moussa DABO Octobre 2017 1 Introduction Stata est un puissant logiciel statistique, très adapté à la manipulation de données. Il intègre la plupart des techniques d’analyse statistique (classiques comme récentes) et est doté d’un des meilleurs systèmes de production de graphiques. Comparativement aux autres logiciels de traitement de données, Stata est plutôt rapide et facile d’utilisation. Ce tutoriel est une introduction aux fonctionalités principales de Stata. Il est basé sur le Stata Tutorial de Germán Rodríguez, disponible sur ce lien, et comprend essentiellement 4 parties. La première consacre une présentation du logiciel (interface, fonctionement, . . . ). Les autres parties traitent successivement l’analyse de données, la production de graphiques et la programmation sous Stata. 1.1 Présentation de Stata Stata est disponible pour les environnements Windows, OS X et Linux. La version standard est Stata/IC (Intercooled Stata) qui permet de manipuler des bases de données comportant au plus 2 047 variables. Il existe aussi une édition spéciale (version professionnelle), Stata/SE, pour laquelle ce nombre passe à 32 766. Enfin, la version Stata/MP utilise les possibilités de calcul parallèle sur des machines multi-processeurs et donne la possibilité de travailler avec des jeux de données encore plus grands. Par ailleurs, ces versions existent en 32-bit et 64-bit. 1.1.1 L’interface de Stata Au premier démarrage, l’interface de Stata comprend 5 fenêtres, disposées comme sur la figure suivante. Figure 1: Interface de démarrage de Stata 1 C’est au niveau de la fenêtre Command qu’il faut entrer les instructions (commandes) à faire exécuter au logiciel. Les résultats (ou une erreur si la syntaxe n’est pas correcte) sont alors affichés sur la fenêtre Results. Ensuite, la commande est ajoutée à la liste sur la fenêtre Review située à gauche. Il est ensuite possible de revenir sur n’importe quelle commande par un simple clic sur cette liste. Il y a ensuite la fenêtre Variables, située dans le coin supérieur droit de l’interface, qui comporte une liste des variables de la base de données (si vous en avez chargée une). Enfin, la fenêtre Properties, introduite avec la version 12 de Stata, donne un aperçu sur les métadonnées. Il est possible de modifier cet affichage (changer la taille, la couleur de l’arrière-plan ou même fermer certaines de ces fenêtres), de même que les styles de police utilisés pour chaque fenêtre au niveau de la boîte de dialogue Preferences accessible depuis la barre de menu. D’autres fenêtres (Graph, Viewer, Variables Manager, Data Editor et Do file Editor) seront présentées dans la suite de ce tutoriel. Depuis la version 8 du logiciel, l’interface graphique (GUI) de Stata permet de sélectionner des commandes et options depuis le menu et ainsi de travailler avec le logiciel sans faire de la programmation. Cependant, l’utilisation du GUI n’est pas recommandée parce qu’elle ne permet pas une reproductibilité des résultats. Il y a aussi plusieurs fonctionnalités de Stata qui ne sont pas accessibles à partir du GUI, notamment les contributions de développeurs indépendants. Ainsi, ce tutoriel ne fait pas mention du GUI dans ce qui suit. 1.1.2 Les commandes sous Stata Stata peut être utilisé comme une calculatrice avec la commande display comme dans les exemples suivants (le point situé en début de ligne est une façon de distinguer les lignes pour Stata et ne fait pas partie de la commande) : . display 2+2 4 . display 2 * ttail(20, 2.1) .04861759 Les commandes sous Stata sont sensibles à la casse, display et Display ne veulent pas dire la même chose et la deuxième commande produira une erreur. Il est possible d’abbréger les commandes et dans la documentation comme sur l’aide en ligne, la plus courte abbréviation possible de chaque commande est soulignée et ce formalisme est aussi adopté pour ce tutoriel (la plus courte abbréviation possible de la commande display est d par exemple). Le deuxième exemple montre l’utilisation d’une fonction intégrée qui donne une p-value, 2 fois la probabilité qu’une statistique t de Student avec 20 degrés de liberté dépasse la valeur 2,1 dans ce cas. Si l’exécution d’une commande produit une erreur, il suffit de la sélectionner sur la fenêtre Review pour modifier la syntaxe si vous connaissez l’origine de l’erreur. Sinon, il est toujours possible d’obtenir de l’aide en ligne. 1.1.3 Obtenir de l’aide Pour obtenir de l’aide sur une commande ou une fonction intégrée, il faut taper help nom_de_la_commande, qui affiche l’aide sur une nouvelle fenêtre appelée Viewer. Vous pouvez aussi taper chelp nom_de_la_commande pour avoir l’aide sur la fenêtre Results, mais ceci n’est pas recommandé. Si vous ne connaissez pas le nom de la commande pour exécuter une tâche particulière, vous pouvez utiliser la commande search qui parcourt la documentation de Stata et d’autres resources pour trouver des commandes qui correspondent à votre recherche. Par exemple la commande search linear regression donne une liste exhaustive des commandes, fonctions, livres et même tutoriels vidéo sur la régression linéaire documentés au niveau de l’aide officielle. Par ailleurs, depuis la version 11, toute la documentation de Stata est disponible en fichiers PDF que vous pouvez télécharger. Pour plus de détails sur l’aide en ligne, tapez help help. Il existe aussi plusieurs forums et sites web dédiés où vous pourrez poser une question sur une commande ou bien tâche que vous souhaitez exécuter et obtenir une réponse satisfaisante dans un délai raisonable. 1.1.4 Chargement d’une base de données intégrée Il existe au niveau du dossier d’installation de Stata quelques exemples de jeux de données. Pour voir la liste de toutes les bases enregistrées lors de l’installation de Stata, tapez sysuse dir. Le chargement d’une de ces bases se fait comme dans l’exemple suivant qui importe des données sur l’espérance de vie et le PNB de 68 pays en 1998. La commande describe donne un aperçu sur le contenu du fichier importé. . sysuse lifeexp, clear (Life expectancy, 1998) . desc Contains data from /Applications/Stata/ado/base/l/lifeexp.dta 2 obs: 68 Life expectancy, 1998 vars: 6 26 Mar 2014 09:40 size: 2,652 (_dta has notes) storage display value variable name type format label variable label region byte %12.0g region Region country str28 %28s Country popgrowth float %9.0g * Avg. annual % growth lexp byte %9.0g * Life expectancy at birth gnppc float %9.0g * GNP per capita safewater byte %9.0g * * indicated variables have notes Sorted by: Il apparait que la base comporte 6 variables. Elle est aussi commentée et les commentaires peuvent être consultés avec la commande notes. La commande notes nom_de_la_variable permet de voir les notes sur une variable spécifique. 1.1.5 Statistiques descriptives Dans cette sous-section, l’attention sera portée sur 2 variables : l’espérance de vie (lexp) et le PNB per capita (gnppc). La commande summarize, suivie des noms de variables, donne les valeurs de quelques statistiques sur ces variables. Si la commande n’est pas suivie d’un nom de variable, elle est exécutée pour toute les variables de la base. . summarize lexp gnppc Variable Obs Mean Std. Dev. Min Max lexp 68 72.27941 4.715315 54 79 gnppc 63 8674.857 10634.68 370 39980 L’espérance de vie moyenne est donc de 72,3 ans et le PNB per capita varie entre $370 et $39,980, avec une moyenne de $8,675. Il apparait également qu’il y a seulement 63 observations sur le PNB per capita : il y a donc des valeurs manquantes. La commande suivante donne la liste des pays dont le PNB per capita n’est pas renseigné. . list country gnppc if missing(gnppc) country gnppc 7. Bosnia and Herzegovina . 40. Turkmenistan . 44. Yugoslavia, FR (Serb./Mont.) . 46. Cuba . 56. Puerto Rico . Il y a ainsi 5 pays avec des données manquantes. Cet exemple illustre une caractéristique importante de la programmation sous Stata : l’action de n’importe quelle commande peut être restrainte à une partie des données . Si la condition if missing(gnppc) avait été exlue, tous les 68 pays de la base apparaîtraient sur la liste. Il est à noter que Stata dénote une valeur manquante par un point. Les données manquantes sont traitées plus en détails dans la deuxième partie. 1.1.6 Dessiner un nuage de points Pour voir comment l’espérance de vie varie avec le PNB per capita, il est possible de faire un nuage de points avec la commande graph qui a plusieurs sous-commandes et options dont certaines sont passées en revue dans la troisième partie du tutoriel. . graph twoway scatter lexp gnppc . graph export scatter.png, width(500) replace (file scatter.png written in PNG format) Le graphique (à la page suivante) montre une relation curviligne entre l’espérance de vie et le PNB per capita. Au niveau de la sous-section suivante, nous verrons s’il est possible de linéariser cette relation en prenant le logarithme du PNB per capita. 1.1.7 Créer de nouvelles variables La création de variables se fait avec la commande generate suivie d’un nouveau nom de variable et d’une expression arithmétique. Le choix des noms de variables est important lorsque vous travailler sur un projet. Il faudra 3 Figure 2: Espérance de vie à la naissance suivant le PNB per capita notamment veiller à ce que uploads/Industriel/ tutoriel-stata.pdf

  • 11
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager