Sujet de data science : Analyse des commentaires sur google play pour l’identif
Sujet de data science : Analyse des commentaires sur google play pour l’identification des applications suspicieuses Introduction Google Play est la boutique en ligne de Google pour le système d’exploitation Android. L’application Play Store, préinstallée sur chaque téléphone et tablette Android, permet de télécharger des applications, des livres numériques, des musiques et de louer des films. Toute personne ayant remplis les modalités peuvent publier des applications sur Google Play. Cependant il existe des personnes ayant des intentions malsaines qui publient des applications malicieuses qui ont l’air à priori normal. Les utilisateurs peuvent évaluer les applications sur Google Play en lui attribuant un certain nombre d'étoiles et en rédigeant un avis. Pour dont déterminer si une application est suspicieuse sur Google Play, on peut effectuer une analyse des avis (commentaires) laissé par les utilisateurs. Cette analyse peut être réalisée en utilisant le (Natural Language Processing). Méthodologie Le Natural Language Processing (NLP) autrement appelé en français “Traitement automatique du langage naturel est la capacité d’un programme à comprendre le langage humain, Il fait partie des technologies d'intelligence artificielle. Le traitement du langage naturel peut être utilisé pour interpréter du texte libre et le rendre analysable. Exemple d’applications du NLP : Google Assistant Google Traduction Les spams Pour réaliser l’analyse des commentaires, nous avons utilisé les outils logiciels suivant : - Le Natural Language Toolkit (NLTK) est une bibliothèque logicielle en Python permettant un traitement automatique des langues. En plus de la bibliothèque, NLTK fournit des démonstrations graphiques, des données-échantillon, des tutoriels, ainsi que la documentation de l'interface de programmation (API). - Scikit-learn est une bibliothèque libre Python destinée à l'apprentissage automatique. Pour l’apprentissage, nous avons utilisé le classificateur naïve bayésienne. La classification naïve bayésienne est un type de classification bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur naïf de Bayes, appartenant à la famille des classifieurs linéaires. L'avantage du classifieur bayésien naïf est qu'il requiert relativement peu de données d'entraînement pour estimer les paramètres nécessaires à la classification, à savoir moyennes et variances des différentes variables. Le processus d’analyse des commentaires est le suivant : 1- Collecte des données Les commentaires (texte brute) sont récupérés et enregistrés dans un fichier. Ce fichier est organisé en : - 3 colonnes, la 1ère colonne contient le nom des applications, la deuxième contient 1 si l’application semble normale, et 0 si l’application semble suspicieuse, la troisième les commentaires des applications - Une ligne pour chaque application Un vocabulaire de mot suspicieux est créé et enregistré dans un fichier. Ce vocabulaire est obtenu en analysant les caractéristiques des applications suspicieuses lecture du fichier des commentaires 2- Nettoyage et traitement des données division des commentaires en mot retrait de la ponctuation retrait des mots vide (mots du langage tel que je, un, il….) identification des mots importants (en comparant les mots du commentaire avec ceux du vocabulaire) formatage des données en construisant une matrice où : - les colonnes représentent les mots importants - les lignes représentent les applications - la cellule le nombre de fois qu’un mot apparait dans les commentaires d’une application 3- Classification des données Les étapes sont : Division des données (obtenue après Nettoyage et traitement) en données d'apprentissage et données de test Apprentissage à partir des données d’apprentissage en utilisant un classifieur naïf de Bayes Prédiction à partir des données de test Calcul de l’accuracy Résultat Au départ nous avons les données suivant : - Des commentaires (texte brute) sur 20 applications Figure 1 : extrait du fichier des commentaires - Un vocabulaire de mots Figure 2 : extrait du fichier de vocabulaire Ces commentaires sont nettoyés et traité en utilisant NLTK et on obtient : Figure 3 : données brutes Figure 4 : données traitées Ces données sont préparées pour l’apprentissage Figure 5 : extrait des données formatées pour l'apprentissage Apres l’apprentissage, on réalise une prédiction à partir d’un ensemble de données ( 5 application ), et obtient un Accuracy de 0.625 Conclusion L’analyse des commentaires sur google play en utilisant le NLP nous a permis à l’aide d’un classifieur bayésien naïf, l’identification des applications suspicieuses. Avec un jeu de données de 20 applications nous avons obtenu un accuracy un peu au-delà de la moyenne. Pour obtenir donc une meilleure précision l’on doit collecter plus de données pour l’apprentissage, car l’accuracy augmente avec le nombre de donnés. uploads/Management/ rapport-aissatou-oumarou.pdf
Documents similaires
-
12
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 09, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.3684MB