Département Génie Industriel A.U. 2021/2022 Modélisation statistique Travaux pr

Département Génie Industriel A.U. 2021/2022 Modélisation statistique Travaux pratiques sous R A. Les trois tests de Khi-deux I. Test d’indépendance Une société de câblage souhaite savoir s’il y a un lien entre la famille de câble à fabriquer et l’origine des problèmes d’arrêt de production. Les données récoltées sont stockées dans le fichier : « Cablage.csv ». Le test d’indépendance portera sur la variable Famille (Small, Main, Passenger et IP) et la variable Origine du problème (assemblage, cutting, facilité/ équipement, IT/programmation, logistique, maintenance, planning, pré assemblage et RH). 1. Charger le fichier de données en utilisant le type de lecture read.cvs2 et mettant l’argument row.names à 1. 2. Effectuer le test de khi-deux : chisq.test(Cablage). 3. Interpréter le résultat obtenu en se justifiant. II. Test d’homogénéité Une usine souhaite tester quatre approches différentes de fabrication d’une catégorie de pièces. Pour ce faire, les quatre techniques ont été appliquées à trois échantillons de même matière première. Les résultats du contrôle qualité sont stockés dans le fichier : « Fabrication.csv ». 1. Charger le fichier de données en utilisant le type de lecture read.cvs2 et mettant l’argument row.names à 1 pour ne pas lire la ligne des noms de colonnes. 2. Vérifier, par le biais du test de khi-deux approprié, s’il y a une différence entre les quatre approches. 3. Quelle est la décision à prendre ? Justifier la réponse. 1 Pr. Asmaa BENGHABRIT Département Génie Industriel A.U. 2021/2022 III. Test d’ajustement Partie I : Loi discrète Lors de l’études de 187 dossiers de crédit bancaire, on constate que 108 crédits ont été accordé alors que le reste a été rejeté. Cependant, en théorie, on devrait observer la répartition suivante : 69% dossiers acceptés et 31% dossiers rejetés. On souhaite ainsi effectuer un test de Khi-deux d’ajustement pour vérifier si les résultats que l'on observe diffèrent significativement de ce que la théorie laissait envisager. 1. Créer deux vecteurs, le premier contiendra la répartition réelle des individus (Credit) et le second stockera les valeurs de probabilités (proba). 2. Effectuer le test de khi-deux : chisq.test(Credit, p=proba). 3. Quelle est la décision à prendre ? Justifier la réponse. Partie II : Loi continue Une étude a été réalisé sur le Temps consommé par des opérateurs X pour l’assemblage de 200 produits. Les données de cette enquête figurent sur le tableau suivant : Temps d’assemblage [200,400[ [400,600[ [600,800[ [800,1000[ [1000,1200[ [1200,1400[ Nombres de produits 15 32 35 78 31 9 1. Représenter la série statistique sous forme d’un tableau complet en précisant : les centres, les effectifs, les effectifs cumulés et les fréquences. 2. Tracer l’histogramme approprié à la série statistique. En déduire la loi de probabilité qui peut gérer le caractère X. 3. Estimer les paramètres de cette loi et calculer les probabilités théoriques. 4. Justifier le choix de la loi de X par un test au seuil 2%. 5. Est-ce que la décision prise est confiante ? 6. Peut-on proposer une autre loi pour X ? Justifier la réponse. N.B. Les lois de probabilités usuelles sous R : https://fr.wikibooks.org/wiki/Programmer_en_R/Les_loi_de_probabilit %C3%A9s,_ajustement_et_test 2 Pr. Asmaa BENGHABRIT Département Génie Industriel A.U. 2021/2022 B. Analyse de la Variance 1. Charger le fichier de données « ComportementConsommateur.csv » : Environnement – Import Dataset – From Text (readr) en modifiant le type de lecture en read.cvs2. L’étude consiste à comprendre le comportement du consommateur sur internet, qui est un facteur clé impactant le nombre de transactions (NbrArt) faites par chaque cyberacheteur. Pour ce faire, on étudiera les facteurs qui peuvent impacter le nombre de transactions NbrArt, à savoir le sexe (Sexe), l’âge (Aage) et la situation financière (SitFinance). 2. Etudier la répartition des données par modalité pour chaque facteur en utilisant la fonction table() et effectuer une étude statistique descriptive sur la variable dépendante. En tirer des conclusions. 3. Tester si l’hypothèse de normalité est vérifiée en utilisant le test de shapiro.test : shapiro.test(NbrArt). Ensuite, tester si l’hypothèse d’homogénéité de la variance est vérifiée en utilisant le test de barlett : bartlett.test(NbrArt,Sexe). Peut-on effectuer une analyse de la variance ? Justifier votre réponse. 4. Tracer les graphes d’interactions entre les facteurs deux à deux et la variable dépendante N : interaction.plot(Sexe,Age, NbrArt). En tirer le type d’analyse de variance à effectuer, One-way ANOVA : aov(NbrArt ~ Sexe) ou ANOVA à deux facteurs sans interactions : aov(NbrArt ~ Sexe+Age) ou ANOVA à deux facteurs avec interactions : aov(NbrArt ~ Sexe*Age) ou ANOVA à plusieurs facteurs. 5. Effectuer l’analyse de la variance appropriée et justifier ce choix. 6. Effectuer le test Post Hoc de comparaison de Tukey afin de détecter les niveaux des facteurs qui sont significativement différents des autres : TukeyHSD(AnVar). Ensuite afficher les résultats : plot(TukeyHSD(AnVar)). 3 Pr. Asmaa BENGHABRIT Département Génie Industriel A.U. 2021/2022 C. Régression linéaire simple et multiple 1. Charger le fichier de données « Cars.csv » : Environnement – Import Dataset – From Text (readr). L’étude consiste à chercher le lien entre les variables « mileage » kilométrage, « lh labor hours » heures de travail et « lc labor cost » coût de travail. 2. Tracer le nuage de points entre les trois variables deux à deux par la fonction scatter : scatter.smooth(x=Cars$lh, y=Cars$lc, main="LaborCost ~ LaborHours"). On peut aussi utiliser la fonction pairs pour avoir une vision globale. Interpréter. 3. Vérifier s’il y a des points abberants (outliers) en utilisant les boites à moustaches des trois variables. 4. Tracer les diagrammes de densité des trois variables. Interpréter. plot(density(Cars$lh), main="Labor Hours Plot: lh", ylab="Frequency") polygon(density(Cars$lh), col="red") 5. Calculer la corrélation entre les variables deux à deux. Interpréter les résultats. 6. Créer deux jeux de données, un premier pour le traitement et un second pour le test 7. Extraire le modèle de régression linéaire simple entre la variable lc et la variable lh en utilisant la fonction lm : Sregression = lm(lc ~ lh, data=trainingData). Interpréter les résultats en se basant sur l’output de la fonction summary et de la fonction confint()qui génère les intervalles de confiance pour les paramètres du modèle. La fonction residuals() permet d’avoir les résidus du modèle. 8. Extraire le modèle de régression linéaire multiple entre la variable lc et les variables mileage et lh en utilisant la fonction lm : Mregression = lm(lc ~ Mileage + lh, data=trainingData). Interpréter les résultats. 9. Prédire les coûts de travail du jeux de données testData : lcPred <- predict(Sregression, testData). 10. Créer un data frame contenant les valeurs réelles et prédites, visualiser le puis calculer la corrélation entre eux. 11. Calculer la précision MinMaxAccuracy et l’erreur MeanAbsolutePercentageError (MAPE) du modèle. 4 Pr. Asmaa BENGHABRIT Département Génie Industriel A.U. 2021/2022 12. Prédire le coût de travail pour 15 heures de travail en utilisant la fonction predict et l’interval de confiance comme paramètre : predict(Sregression, data.frame(lh=15),interval = 'confidence') 13. Comment effectuer une cross-validation ? N.B : 5 Pr. Asmaa BENGHABRIT uploads/Industriel/ tps-ms 1 .pdf

  • 15
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager