Université Paris Dauphine - Cours M1 Initiation à STATA et SAS - Sandrine Dufou

Université Paris Dauphine - Cours M1 Initiation à STATA et SAS - Sandrine Dufour-Kippelen, Marta Menéndez 1 Introduction au logiciel Stata Version 11 Windows Notes de cours de M. Menéndez 1. Présentation du logiciel ...................................................................................................... 2 1.1. Commentaires préliminaires ...................................................................................... 2 1.2. L’interface .................................................................................................................. 3 1.3. Les fichiers ................................................................................................................. 4 1.4. Structure d’un programme Stata................................................................................. 4 2. Gérer une base de données ................................................................................................. 6 2.1. Lecture et enregistrement d’une base de données ...................................................... 6 2.1.a. Ouverture des données : la commande use ............................................................... 6 2.1.b. Importation des données : commandes insheet, infile, infix. ................................... 7 2.1.c. Enregistrement des données ..................................................................................... 8 2.2. Gestion des variables .................................................................................................. 8 2.2.a. Sélection des données ............................................................................................... 8 2.2.b. Analyse du contenu d’un fichier .............................................................................. 8 2.2.c. Générer de nouvelles variables ................................................................................. 9 2.3. Gestion de plusieurs bases ........................................................................................ 10 2.3.a. Réorganisation des bases ........................................................................................ 10 2.3.b. Concaténation (append) .......................................................................................... 10 2.3.c. Appariement (merge) .............................................................................................. 11 2.3.d. Transformation (collapse) ...................................................................................... 11 2.3.e. Transposition (reshape) .......................................................................................... 11 3. Eléments de programmation ............................................................................................. 12 3.1. Opérateurs dans STATA .......................................................................................... 12 3.2. Quelques bases de programmation ........................................................................... 13 4. Statistiques descriptives ................................................................................................... 13 4.1. Synthèse des données et statistiques descriptives .................................................... 13 4.2. Corrélations et tests de comparaison ........................................................................ 15 4.3. Graphiques ............................................................................................................... 17 4.3.a. Graphiques unidimensionnels (graph) .................................................................... 17 4.3.b. Graphiques bi-dimensionnels (twoway) ................................................................. 19 4.3.c. Sauvegarde des graphiques ..................................................................................... 20 5. Econométrie ..................................................................................................................... 20 5.1. Régression linéaire ................................................................................................... 20 5.1.a. La commande regress ............................................................................................. 21 5.1.b. La création des variables indicatrices ..................................................................... 21 5.1.c. Commandes de post-estimation .............................................................................. 22 5.2. Modélisation des variables qualitatives dichotomiques (logit et probit) .................. 22 6. Bibliographie .................................................................................................................... 23 7. Annexe ............................................................................................................................. 25 7.1. Présentation de la base Vietnam98.dta ..................................................................... 25 Version Septembre 2011 Université Paris Dauphine - Cours M1 Initiation à STATA et SAS - Sandrine Dufour-Kippelen, Marta Menéndez 2 1. Présentation du logiciel 1.1. Commentaires préliminaires Stata est un logiciel statistique apparu dans les années 80, et qu’aujourd’hui se positionne comme un logiciel de pointe dans les domaines de l’analyse et de la représentation graphique des données, de la statistique et de l’économétrie appliquée de bon niveau. Stata est développé sur les plates-formes Windows, Macintosh et Unix en plusieurs versions selon la capacité de traitement des données (nombre d’observations, nombre de variables, taille des matrices). Ainsi les versions disponibles sont : Nombre d’observations Nombre de variables Taille des matrices Small Stata 1000 99 40 × 40 Stata/IC 2 147 483 647 2047 800 × 800 Stata/SE et Stata/MP 2 147 483 647 32767 11 000 × 11 000 Source: Cahuzac et Bontemps (2008). o Sur la mémoire: Attention : ces limites sont conditionnés par la capacité de la machine utilisée puisque Stata travaille en mémoire vive. De plus, la mémoire vive allouée au logiciel Stata à l’ouverture d’une session (qui est de 1000K ou 1M par défaut) peut être insuffisante quand on travaille avec des gros fichiers (à ce moment là vous obtenez le message d’erreur : « no room for more observations »). Il suffira d’augmenter l’espace de travail de Stata en utilisant la commande set memory : set memory 30m (pour attribuer, par exemple, 30M à Stata) Cependant cette opération ne peut-être réalisé que si la mémoire est vide, c'est-à-dire qu’aucun fichier n’est utilisé. o Sur où trouver de l’aide pour l’utilisation du logiciel Stata: Stata dispose d’une série de manuels officiels où l’on peut trouver de l’aide sur l’utilisation du logiciel et une description détaillée des commandes disponibles (voir bibliographie). Le logiciel dispose aussi d’une version abrégée de ces manuels en ligne. Ainsi, si vous souhaitez obtenir des informations sur une commande vous pouvez lancer la commande help suivi du nom de la commande : help regress Lorsque vous ignorez le nom précis de la commande, il est pratique d’utiliser la commande search (ou net search) suivie d’un mot-clé en anglais qui précise ce que l’on cherche, pour trouver des suggestions de commandes (ou des programmes Stata et sites référencés sur internet) : search regression net search regression Université Paris Dauphine - Cours M1 Initiation à STATA et SAS - Sandrine Dufour-Kippelen, Marta Menéndez 3 1.2. L’interface o Les fenêtres de Stata: L’environnement informatique STATA comprend quatre fenêtres visibles en permanence: - La fenêtre Stata Results (en haut à droite): affiche les commandes soumises et les résultats des opérations effectués par Stata. - La fenêtre Review (en haut à gauche): récapitule les commandes soumises pendant toute la session ouverte de Stata. - La fenêtre Variables (en bas à gauche): liste les variables de la base des données avec leur « label ». - La fenêtre Stata Command (en bas à droite): permet de taper des commandes qui peuvent être exécutées immédiatement au moyen de la touche « Entrée ». A ces 4 fenêtres s’ajoutent les fenêtres suivantes : - La fenêtre Viewer : apparaît lors d’une demande d’aide ou lors de la visualisation de fichiers « log », qui enregistrent les commandes soumises et les résultats obtenus (voir plus bas). - La fenêtre Do-file Editor : éditeur de texte de Stata. - Les fenêtres Data Editor ou Data Browser : éditeurs de données ; le premier permet l’observation et la modification des données, et le deuxième permet seulement l’observation des données mais pas leur modification. o La barre d’outils (Toolbar) Elle permet de gérer facilement et rapidement les actions de base. De gauche à droite les icones représentent: ouverture d’un fichier de données Stata, sauvegarde du fichier, impression des résultats/graphiques, création/ouverture d’un fichier log, affichage de la fenêtre Viewer, affichage du dernier graphique commandé, ouverture de la fenêtre Do- file Editor, ouverture des fenêtres du Data Editor et du Data Browser, le bouton « go » qui permet d’éviter de faire de pauses au milieu de l’exécution d’une commande longue et Université Paris Dauphine - Cours M1 Initiation à STATA et SAS - Sandrine Dufour-Kippelen, Marta Menéndez 4 finalement un bouton pour stopper la commande en cours (si elle est trop longue ou si on a commis une erreur de programmation, par exemple). 1.3. Les fichiers Il existe 4 principaux fichiers avec des extensions spécifiques : - les fichiers de données au format Stata (identifiés par le suffixe .dta), - les fichiers générés par l’éditeur de texte et qui contiennent les commandes (ou programmes) nécessaires pour un traitement (identifiés par le suffixe .do), - les fichiers .ado, qui sont des procédures –fournies ou à télécharger-, c'est-à-dire de routines écrites dans le langage Stata et qui permettent de réaliser des traitements spécifiques. - Les fichiers qui servent à enregistrer les résultats du travail effectué dans Stata au cours d’une session (identifiés par le suffixe .log). D’autres types de fichiers Stata à connaître: - les fichiers d’aide en ligne (.hlp), - les graphiques (.gph) et - les fichiers texte contenant le dictionnaire des variables nécessaires pour la lecture des données au format fixe (.dct). A son installation, Stata crée de façon automatique un répertoire appelé «ado » dans C:\, qui n’est que la bibliothèque des procédures (les .ado) qui sont mises à jour régulièrement, ayant été corrigées, homogénéisées ou complétées par le groupe industriel StataCorp (aidés par la communauté des utilisateurs). Pour assurer une bonne organisation du reste des fichiers générés par nous, il est utile de créer un ensemble structuré de répertoires. Voici un exemple de création et d’organisation des répertoires pour ce cours. Répertoire de base : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata Les bases de données (ex. : la base Vietnam98.dta) sont stockées dans le répertoire : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata\data Les programmes que nous allons développer seront stockés dans : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata\dofiles Et nos résultats (graphiques, logfiles, …) dans : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata\results 1.4. Structure d’un programme Stata Si vous utilisez de façon répétée la même série de commandes, vous pouvez sauvegarder ces commandes dans un fichier « do-file » (.do). Pour créer un do-file ou un programme on utilise l’éditeur intégré de Stata, le Do-file Editor. Une fois les commandes saisies dans Université Paris Dauphine - Cours M1 Initiation à STATA et SAS - Sandrine Dufour-Kippelen, Marta Menéndez 5 l’éditeur, elles peuvent être exécutées en les sélectionnant et en utilisant l’icône de l’éditeur .do (sur la barre des menus, deuxième icône à partir de la droite, correspondant à la commande « do current file »). Un do-file doit être clair afin de pouvoir être utilisé longtemps après sa réalisation ou par des tiers. Pour cela il est utile d’avoir en mémoire quelques bons reflexes de programmation. Voici certaines recommandations. - Bien écrire : Indiquer la date de création du do-file ainsi que toutes les dates de révision, avec éventuellement un bref descriptif des changements apportés. - Les commentaires : Stata traite chaque ligne qui commence par un astérisque (*) comme un commentaire. Vous pouvez écrire des commentaires de plusieurs lignes en plaçant une barre oblique et un astérisque (/*) au début de ce commentaire et un astérisque et une barre oblique à la fin (*/). - Les délimiteurs : Stata estime par défaut que chaque commande est terminée au bout d’une ligne. Si, toutefois, une commande est trop longue pour tenir sur une seule uploads/Industriel/ stata-2.pdf

  • 34
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager