HAL Id: hal-02874904 https://hal.archives-ouvertes.fr/hal-02874904 Submitted on
HAL Id: hal-02874904 https://hal.archives-ouvertes.fr/hal-02874904 Submitted on 19 Jun 2020 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Etude comparative des méthodes de détection d’anomalies Maurras Togbe, Yousra Chabchoub, Aliou Boly, Raja Chiky To cite this version: Maurras Togbe, Yousra Chabchoub, Aliou Boly, Raja Chiky. Etude comparative des méthodes de détection d’anomalies. Revue des Nouvelles Technologies de l’Information, Editions RNTI, 2020, Extraction et Gestion des Connaissances EGC 2020. hal-02874904 Etude comparative des méthodes de détection d’anomalies Maurras Ulbricht Togbe∗, Yousra Chabchoub∗ Aliou Boly∗∗, Raja Chiky∗ ∗ISEP, 10 rue de Vanves 92130 ISSY LES MOULINEAUX, France prenom.nom@isep.fr, http ://www.lisite.isep.fr ∗∗Université Cheikh Anta Diop de Dakar, BP 5005 Dakar-Fann, Sénégal prenom.nom@ucad.edu.sn https ://www.ucad.sn Résumé. La détection d’anomalies est un problème en plein essor et qui revêt une importance dans plusieurs domaines. A titre d’exemple, la cy- bercriminalité peut provoquer des pertes économiques considérables et menacer la survie des entreprises. Sécuriser son système d’information est devenu une priorité et un enjeu stratégique pour tous les types d’entre- prises. D’autres domaines sont également impactés tels que la santé, les transports, etc. Les solutions de supervision mises en place sont souvent basées sur des algorithmes de détection d’anomalies issus du datamining et du machine learning. Nous présentons dans ce papier un état de l’art complet sur les algorithmes de détection d’anomalies. Nous proposons une classification de ces méthodes en se basant à la fois sur le type de jeux de données (flux, séries temporelles, graphes, etc.), le domaine d’application et l’approche considérée (statistique, classification, clustering, etc.). Nous nous focalisons ensuite sur trois algorithmes : LOF, OC-SVM et Isola- tion Forest que nous testons sur deux jeux de données différents afin de comparer leurs performances. 1 Introduction La détection d’anomalies est un volet du datamining qui intéresse de plus en plus de chercheurs actuellement. On trouve dans la littérature plusieurs définitions de l’anoma- lie souvent appelée outlier. Hawkins (1980) définit un outlier comme une observation qui dévie considérablement du reste des autres observations comme si elle était générée par un processus différent. Quant à Dunning et Friedman (2014), ils affirment que la détection d’anomalie consiste à modéliser ce qui est normal dans le but de découvrir ce qui ne l’est pas. Aggarwal (2017) fait la distinction entre un outlier et une anomalie. Un outlier désigne le bruit et l’anomalie. Le degré d’aberrance permet de différencier les bruits des anomalies. Etude comparative des méthodes de détection d’anomalies La détection d’anomalies permet d’améliorer la qualité des données par suppression ou remplacement des données anormales. Dans d’autres cas, les anomalies traduisent un événement et apportent de nouvelles connaissances utiles. Par exemple, la détection d’anomalies peut prévenir un dommage matériel et donc inciter à la maintenance pré- dictive dans le domaine de l’industrie. Elle trouve son application dans plusieurs autres domaines comme la santé, la cybersécurité, la finance, la prédiction des catastrophes naturelles, et bien d’autres domaines. Les données existent sous plusieurs formes : les données statiques, les flux de don- nées, les données structurées et non structurées, etc. Chaque type de données est per- tinent dans un ou plusieurs domaines. La multitude des types de données et leurs caractéristiques différentes impliquent l’existence de méthodes différentes pour la dé- tection d’anomalies, chacune trouvant son efficacité dans un domaine particulier, avec un objectif donné. Ces méthodes utilisent en général un seuil de décision permettant d’isoler les anomalies en se basant sur les différentes techniques comme la classification, le clustering, la régression, les plus proches voisins et les outils statistiques. Plusieurs critères peuvent être considérés pour comparer ces méthodes et per- mettent de choisir la méthode la plus adéquate au contexte : l’implication de l’hu- main (supervisée, non supervisée, semi-supervisée), la nécessité de faire des hypo- thèses sur la loi de distribution des données (paramétriques, non-paramétriques, semi- paramétriques), la capacité de traiter des données multivariées et bien d’autres critères. La mesure de la performance de telles méthodes peut s’appuyer sur différents critères comme la précision de la détection (faux positifs, faux négatifs), la rapidité de la détec- tion (temps de réponse) et le passage à l’échelle (par rapport au volume des données ou au débit du flux) entre autres. Dans cet article, nous proposons d’abord une classification multicritère des mé- thodes de détection d’anomalies existantes dans la littérature. Puis nous nous foca- lisons sur trois méthodes : LOF, OC-SVM et Isolation Forest que nous testons sur deux jeux de données différents. Le reste du papier est organisé comme suit : dans la section 2, nous présentons un état de l’art des méthodes de détection d’anomalies. Une classification multicritère de ces méthodes est proposée dans la section 3. Dans la section 4, nous présentons les résultats de notre étude expérimentale comparant les trois méthodes de détection d’anomalies sus-citées. La conclusion est donnée dans la section 5. 2 Etat de l’art La détection d’anomalies est un sujet qui intéresse beaucoup de chercheurs et qui a fait l’objet de nombreux travaux. Plusieurs méthodes ont été proposées pour la détec- tion d’anomalies et chaque méthode a ses forces et ses faiblesses. Patcha et Park (2007) ont fait une revue des méthodes utilisées pour la détection d’intrusion. Une revue plus générale des techniques existantes couvrant plusieurs approches est proposée dans Ag- garwal (2017) et Chandola et al. (2009). Gupta et al. (2014) fait l’état de l’art des méthodes en fonction du type de données considérées : les données temporelles telles que les séries temporelles, les données spatio-temporelles et les flux de données. Salehi et Rashidi (2018), Souiden et al. (2016), Thakkar et al. (2016), Tellis et D’Souza (2018) M. U. Togbe et al. présentent également des méthodes applicables aux flux de données. Dans le Tableau 1, nous présentons une synthèse qui s’appuie sur 10 revues majeures dans la littérature. Nous identifions respectivement les techniques de détection d’anomalies, les types de jeux de données et les domaines d’application abordés dans chacune de ces 10 revues. Le but de ce papier est de fournir un état de l’art complet en agrégeant plusieurs informations sur les différentes méthodes de détection d’anomalies, les jeux de données et les domaines d’applications. Une classification est proposée afin de recommander des méthodes de détection d’anomalies à utiliser selon le type de données dont on dis- pose (flux de données, série temporelle, graphes…) avec des références bibliographiques pertinentes (Tableau 2) et selon l’approche qu’on voudrait utiliser (Figure 1). Une ex- position des forces et faiblesses de différentes techniques est disponible dans Aggarwal (2017), Chandola et al. (2009), Chalapathy et Chawla (2019). 1 2 3 4 5 6 7 8 9 10 Techniques Statistique ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ Clustering ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ Plus proches voisins ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ Classification ✓ ✓ ✓ ✓ ✓ Régression ✓ ✓ Approche spectrale ✓ ✓ Motifs fréquents ✓ ✓ Deep learning ✓ ✓ Type de jeux de données Flux de données ✓ ✓ ✓ ✓ ✓ ✓ Séries temporelles ✓ ✓ ✓ Graphes ✓ ✓ Grande dimension ✓ ✓ ✓ Séquentielles ✓ Spatio-temporelles ✓ ✓ ✓ Spatiales ✓ Domaines d’application Détection d’intrusion ✓ ✓ ✓ ✓ ✓ Détection de fraude ✓ ✓ ✓ Santé ✓ ✓ ✓ ✓ Maintenance prédictive ✓ ✓ ✓ ✓ Réseaux de capteurs ✓ ✓ ✓ ✓ ✓ Traitement d’images ✓ ✓ ✓ Traitement de texte ✓ ✓ Données biologiques ✓ Astronomie ✓ Économie ✓ Tab. 1 – Synthèse de 10 revues existantes : 1- Hodge et Austin (2004) 2- Patcha et Park (2007) 3- Chandola et al. (2009) 4- Aggarwal (2017) 5-Gupta et al. (2014) 6- Souiden et al. (2016) 7-Tellis et D’Souza (2018) 8-Salehi et Rashidi (2018) 9- Zhang (2013) 10-Chalapathy et Chawla (2019). Etude comparative des méthodes de détection d’anomalies 3 Classification des méthodes 3.1 Les domaines d’application La détection d’anomalies est transversale à tout domaine qui exploite les données. Ainsi, elle a de nombreuses applications possibles. Les domaines d’application ayant leur spécificité en fonction des données générées ou exploitées, toutes les méthodes de la détection d’anomalies ne sont pas adaptées à tous les domaines d’application. Chan- dola et al. (2009) et Aggarwal (2017) ont fait une revue couvrant plusieurs domaines d’application. Dans Gupta et al. (2014), les auteurs ont fait la revue des méthodes de détection d’anomalies temporelles applicables dans plusieurs domaines différents. La détection d’intrusion consiste à l’analyse d’une cible généralement un réseau ou un hôte pour détecter les comportements anormaux (Chandola et al. (2009)). Il s’agit en effet de tentatives frauduleuses d’accès à une ressource par violation de la sécurité mise en place pour la cible en question (Aggarwal (2017)). La détection uploads/Sante/ detection-d-x27-anomalies.pdf
Documents similaires










-
31
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 10, 2022
- Catégorie Health / Santé
- Langue French
- Taille du fichier 0.4199MB