Rapport aissatou oumarou Sujet de data science Analyse des commentaires sur google play pour l ? identi ?cation des applications suspicieuses Introduction Google Play est la boutique en ligne de Google pour le système d ? exploitation Android L ? applicat

Sujet de data science Analyse des commentaires sur google play pour l ? identi ?cation des applications suspicieuses Introduction Google Play est la boutique en ligne de Google pour le système d ? exploitation Android L ? application Play Store préinstallée sur chaque téléphone et tablette Android permet de télécharger des applications des livres numériques des musiques et de louer des ?lms Toute personne ayant remplis les modalités peuvent publier des applications sur Google Play Cependant il existe des personnes ayant des intentions malsaines qui publient des applications malicieuses qui ont l ? air à priori normal Les utilisateurs peuvent évaluer les applications sur Google Play en lui attribuant un certain nombre d'étoiles et en rédigeant un avis Pour dont déterminer si une application est suspicieuse sur Google Play on peut e ?ectuer une analyse des avis commentaires laissé par les utilisateurs Cette analyse peut être réalisée en utilisant le Natural Language Processing CMéthodologie Le Natural Language Processing NLP autrement appelé en français ??Traitement automatique du langage naturel est la capacité d ? un programme à comprendre le langage humain Il fait partie des technologies d'intelligence arti ?cielle Le traitement du langage naturel peut être utilisé pour interpréter du texte libre et le rendre analysable Exemple d ? applications du NLP Google Assistant Google Traduction Les spams Pour réaliser l ? analyse des commentaires nous avons utilisé les outils logiciels suivant Le Natural Language Toolkit NLTK est une bibliothèque logicielle en Python permettant un traitement automatique des langues En plus de la bibliothèque NLTK fournit des démonstrations graphiques des données- échantillon des tutoriels ainsi que la documentation de l'interface de programmation API Scikit-learn est une bibliothèque libre Python destinée à l'apprentissage automatique Pour l ? apprentissage nous avons utilisé le classi ?cateur na? ve bayésienne La classi ?cation na? ve bayésienne est un type de classi ?cation bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance dite na? ve des hypothèses Elle met en ?uvre un classi ?eur bayésien na? f ou classi ?eur na? f de Bayes appartenant à la famille des classi ?eurs linéaires L'avantage du classi ?eur bayésien na? f est qu'il requiert relativement peu de données d'entra? nement pour estimer les paramètres nécessaires à la classi ?cation à savoir moyennes et variances des di ?érentes variables Le processus d ? analyse des commentaires est le suivant - Collecte des données ? Les commentaires texte brute sont récupérés et enregistrés dans un ?chier Ce ?chier est organisé en - colonnes la ère colonne contient le nom des applications la deuxième contient si l ? application semble normale et si l ? application semble suspicieuse la troisième les commentaires des applications Une ligne pour chaque application ? Un vocabulaire de mot suspicieux est créé et enregistré dans un ?chier Ce vocabulaire est obtenu en analysant les caractéristiques des applications suspicieuses ? lecture du ?chier des commentaires C - Nettoyage et traitement des données ? division des commentaires en mot ? retrait de la ponctuation

  • 24
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Fev 06, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 31.9kB