Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 1 ENSUP A
Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 1 ENSUP AFRIQUE Rédigé par M.COLY ANNEE ACADEMIQUE 2015-2016 Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 2 Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 3 Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 4 • Cliquer deux fois sur l’icône spss qui se trouve sur le bureau Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 5 Création d’une base de données Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 6 Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 7 Le recodage des variables qualitatives Le recodage des variables est une étape très importante et permet de quantifier les variables qualitatives. Chaque modalité contient un identifiant numérique (code). sexe code Sexe1 HOMME 1 HOMME FEMME 2 FEMME HOMME 1 HOMME FEMME 2 FEMME HOMME 1 HOMME Procédure avec SPSS : Transformer recoder automatiquement on transfert la variable à recoder dans la fenêtre « variable nouveau nom » et on donne un nom à la nouvelle variable cliquer sur ajouter un nouveau nom ok Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 8 La correction des données manquantes Cas d’une variable quantitative ex : AGE Il y’a trois types de données manquantes : NVP (ne veut pas) NSP (ne sait pas) NC (non concerné) On remplace NVP et NSP par la moyenne de la série ou par la moyenne des points voisins. Age Age1 15 15 . 12 13 13 . 12 22 22 . 12 35 35 Mécanisme avec SPSS : Transformer remplacer les valeurs manquantes (spss crée une nouvelle variable) et dans méthode on choisit Moyenne de la série ou Moyenne des points voisins ok Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 9 NB : Pour les NC, on les remplace par 0 Cas d’une variable qualitative ex : SEXE CODE SEXE SEXE 1 HOMME HOMME . HOMME 1 HOMME HOMME . HOMME . HOMME 2 FEMME FEMME . HOMME Pour le cas des variables qualitatives, on regarde la modalité dominante et on les remplace par les données manquantes. Spss ne crée pas une nouvelle variable, il les remplace automatiquement. Mécanisme avec SPSS : Transformer recoder des variables (on transfert la variable à recoder dans variable), on clique sur Anciennes et nouvelles valeurs dans Ancienne valeur, cocher sur manquant par défaut dans nouvelle valeur on met le code de la modalité dominante dans Valeur cliquer sur ajouter poursuivre ok Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 10 Importation d’une base de données Excel vers spss Mécanisme avec SPSS : • Pour importer une base de données Excel vers Spss, cliquer 2 fois sur l’icône de spss qui se trouve sur le bureau ensuite cliquer sur le dossier jaune qui en dessous de la barre du menu fichier plus précisément le dossier qui est coté du menu FICHIER changer la nature ( le type) du fichier par Excel (*.xls,*.xlsx,*.xlsm) automatique les fichiers Excel vont apparaitre ensuite cliquer sur un fichier Excel puis OUVRIR. Exportation d’une base de données Spss vers Excel Mécanisme avec SPSS : Pour exporter une base de données Spss vers Excel, on clic sur FICHIER Enregistrer sous ensuite dans Enregistrer sous le type, changer le format du fichier par Excel 97à 2003(*.xls) donner le nom du fichier On coche sur enregistrer les étiquettes de valeur lorsqu’elles sont définies à la place des valeurs de données ENREGISTRER Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 11 Rassembler/fusionner de données Dans la pratique, on fusionne pour avoir un fichier unique. Il y’a deux types de fusion avec Spss : Ajout des observations (horizontale) Ajout des variables (verticale) 1. La fusion horizontale ou ajout des observations : on fusionne les observations d’une enquête identique. 2. La fusion verticale ou ajout des variables : on fusionne des variables différentes Mécanisme avec SPSS : On ouvre d’abord le premier fichier que nous appelons également le fichier récepteur ensuite on clique sur Données Fusionner des fichiers Ajouter des observations / ajouter des variables on clic sur Parcourir pour chercher le deuxième fichier (fichier à fusionner) Ouvrir Poursuivre OK Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 12 L’extraction des années de naissance de la variable date Pour faire l’extraction des années de naissance : On clique sur le menu transformer calculer la variable dans variable cible on met le nom de la nouvelle variable(ANNEES) ensuite on clic Extraction de date qui se trouve dans groupe de fonction et on transfert avant dernier xdate.year dans expression numérique et enfin le point d’interrogation sera remplacé par la date poursuivre ok Analyse des données statistiques Cas d’une variable qualitative : Analyse Statistique descriptive Effectif, on transfert la variable à analyser dans variable ok Cas d’une variable quantitative : Analyse Statistique descriptive Descriptive, on transfert la variable à analyser dans variable ok Tableau croisé avec SPSS : Analyse Statistique descriptive Tableau croisé, on transfert une variable en ligne et l’autre en colonne ok Comparaison des moyennes : Analyse comparer les moyennes moyenne on transfert la variable qualitative (exemple SEXE) dans variable indépendante et la variable quantitative dans variable dépendante ok Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 13 Les analyses de relation Introduction L'analyse des données est une famille de méthodes statistiques dont les principales caractéristiques sont d'être multidimensionnelles et descriptives. Certaines méthodes, pour la plupart géométriques, aident à faire ressortir les relations pouvant exister entre les différentes données. En effet, Ce support décrit les méthodes statistiques destinées à quantifier et tester la liaison entre des variables. On appelle relation entre deux variables le lien qui unit ces deux variables. Le lien peut être très fort comme il peut être faible. C’est pourquoi dans la pratique, on commence toujours à chercher si le lien existe ou non via les tests d’estimation. En résumé, le lien peut être symbolisé par l’intersection entre les deux variables que l’on appelle la commune variance. Ce pendant, non seulement, on a besoin de connaitre le lien entre : Deux variables quantitatives continues (on utilise le test de corrélation) Deux variables qualitatives nominales (on utilise le test de khi-deux) Deux variables qualitatives ordinales à catégorie rangeable (les coefficients de Gamma ; sommer ; le taux de Kendall) Deux variables qualitatives ordinales à score rangeable(le rho de Spearman) Une variable qualitative nominale et une variable quantitative continue (le test de FISHER) Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 14 1. Relation entre deux variables quantitatives continues Variables en jeux Toutes les deux variables doivent être continues Type de test Quant on a deux variables continues, le test que l’on utilise pour mesurer la relation est le R de KARL PEARSON [-1 ; 1] Condition de réalisation du test L’échantillon doit être tiré au hasard Toutes les deux variables (x) ;(y) doivent être continues On suppose que les deux variables ne présentent aucun lien, ce qui fait d’ailleurs l’objet du test. Hypothèse de recherche H0 : le lien n’existe pas H1 : le lien existe On utilise Spss comme logiciel de travail : Présentation des données en format individuel Individus Age Poids 1 14 39 2 15 45 3 15 47 4 17 48 5 20 60 Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 15 N 26 64 Procédure : Analyse statistiques descriptives tableaux croisés On transfert une variable en ligne et l’autre variable en colonne cliquez sur statistiques et cochez sur corrélation continu ok Prise de décision On doit regarder la valeur de la corrélation et les probabilités (alpha) que l’on compare au seuil de 0.05. Si les probabilités sont < à 0.05 = on accepte H1(le lien existe) Si les probabilités sont >= à 0.05= on accepte H0(le lien n’existe pas) Interprétation : Avant tout commentaire, on doit regarder le niveau de signification de cette corrélation c'est-à-dire est ce que la corrélation est significative ou non ? Si c’est non c'est-à-dire alpha ≥ 0.05, on arrête le commentaire et on conclu en disant qu’il y’a aucun lien entre les deux variables. Ce qui veut dire que les variables sont indépendantes. Si alpha < 0.05, on rejette H0 ce qui veut dire qu’il existe un lien entre les deux variables Interprétation de l’intensité du lien : Plus R est proche de 1 plus le lien est fort Plus R est proche de 0 plus le lien est faible Inférence statistique rédigé par M. COLY /Ingénieur Statisticien Page 16 2. Relation entre deux variables qualitatives nominales QUESTION Ya-t-il un lien entre le paludisme et la présence des eaux usées ? Variables en jeux Toutes les deux variables doivent être des variables nominales dichotomiques ou multichotomique. Type de test Quant on a deux variables nominales, le test que l’on utilise pour mesurer la relation est le test de khi-deux Condition de réalisation du test L’échantillon doit être tiré au hasard Les effectifs théoriques calculés > 5 On suppose que uploads/Ingenierie_Lourd/ analyse-de-donnees-avec-spss-pdf 1 .pdf
Documents similaires





