HAL Id: hal-03195770 https://hal.archives-ouvertes.fr/hal-03195770v2 Submitted

HAL Id: hal-03195770 https://hal.archives-ouvertes.fr/hal-03195770v2 Submitted on 14 Apr 2021 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Copyright Approche de traitement des logs pour la prédiction d’erreurs critiques Myriam Lopez, Marie Beurton-Aimar, Gayo Diallo, Sofian Maabout To cite this version: Myriam Lopez, Marie Beurton-Aimar, Gayo Diallo, Sofian Maabout. Approche de traitement des logs pour la prédiction d’erreurs critiques. Revue des Nouvelles Technologies de l’Information, Editions RNTI, 2021. ￿hal-03195770v2￿ Approche de traitement des logs pour la prédiction d’erreurs critiques Myriam Lopez∗, Marie Beurton-Aimar∗ Gayo Diallo∗,∗∗Sofian Maabout∗ ∗University of Bordeaux, LaBRI, UMR 5800, Talence, France {myriam.lopez, marie.beurton, sofian.maabout}@labri.fr ∗∗BPH INSERM 1219, Univ. of Bordeaux, F-33000, Bordeaux, France gayo.diallo@u-bordeaux.fr 1 Introduction La maintenance prédictive, d’importance capitale pour les fabricants (Hashemian (2011); Salfner et al. (2010)) permet d’une part de réduire les coûts liés à l’immobilisation des systèmes après dysfonctionnement et d’autre part anticiper des commandes des pièces de rechange. De nos jours, la plupart des machines modernes de l’industrie sont équipées de capteurs qui me- surent diverses propriétés physiques telles que la pression de l’huile ou la température du li- quide de refroidissement. Après nettoyage et traitement, le signal issu de ces capteurs permet d’identifier au fil du temps les indicateurs d’un fonctionnement anormal (Wang et al. (2015)). La richesse de ces données permet de visualiser l’état du système dans le temps sous la forme d’une estimation de la durée de vie utile restante (Guo et al. (2017)). En parallèle, les ma- chines livrent régulièrement des journaux consignant les différents événements qui permettent de suivre l’usage et les anomalies. Ainsi, la prédiction basée sur les événements est un sujet de recherche clé dans la maintenance prédictive (Wang et al. (2017); Gmati et al. (2019)). Nous proposons, dans ce document, une approche de préparation des données, permettant d’entraîner un modèle de prédiction d’occurrence d’erreur critique. Elle repose sur l’exploita- tion de données historiques de journal associées aux machines. L’objectif est de prédire suf- fisamment tôt l’apparition d’un dysfonctionnement critique afin de faciliter les opérations de maintenance. L’approche est appliquée dans un contexte industriel réel et les performances empiriques obtenues montrent son efficacité. Après avoir introduit les données et les paramètres clés dans la section suivante, nous dé- taillons notre méthodologie de préparation. Les expériences menées dans le cadre de nos tra- vaux sont présentées ensuite, puis nous donnons un aperçu des travaux connexes. Enfin, nous concluons et donnons quelques indications pour les travaux futurs. 2 Collecte des données Soit F un journal produit par une machine M où sont rapportées les erreurs émises par la machine suite à l’observation des valeurs d’un ensemble de capteurs. Nous supposons que Traitement des logs pour la prédiction d’erreurs critiques les erreurs sont enregistrées à intervalles de temps réguliers. Considérons un jeu d’erreurs E = L ∪H où L est l’ensemble des erreurs de faible criticité ℓj et H est l’ensemble des erreurs très critiques hj. Notre objectif est de prédire l’occurrence des erreurs critiques (nous les appellerons erreurs cibles par la suite) selon l’occurrence des erreurs faiblement critiques (ou erreurs faibles). Chaque enregistrement dans F est une paire ⟨i, E⟩où i est une estampille temporelle exprimée en jours, et E ∈N|E| est un vecteur où E[j] représente le nombre d’oc- currences de l’erreur ej ∈E à l’estampille temporelle i. Nous utilisons l’exemple suivant tout au long de ce papier pour illustrer notre approche. Exemple 2.1. Soit E un ensemble d’erreurs E = {ℓ1, ℓ2, ℓ3, ℓ4} ∪{h1, h2}. La séquence sui- vante (tableau 1) décrit le contenu de 10 jours d’historique où chaque ligne est l’enregistrement associé à la journée i. Estampille ℓ1 ℓ2 ℓ3 ℓ4 h1 h2 1 0 12 6 1 0 0 2 0 0 3 2 0 0 3 0 1 4 1 1 1 4 1 0 1 2 0 0 5 0 1 1 2 0 0 6 0 1 1 1 0 0 7 0 1 1 0 0 1 8 1 0 1 8 0 1 9 0 0 6 1 1 0 10 1 0 7 1 1 0 TAB. 1: Exemple d’un journal d’événements log associés à leur estampille temporelle Pour élaborer un modèle de prédiction et collecter les données, trois paramètres, illustrés dans la figure 1, sont appliqués successivement : — Intervalle Prédictif : il décrit l’historique de données utilisé pour effectuer des pré- dictions. Sa taille en jours est définie par le paramètre PI. Les informations contenues dans cet intervalle sont rassemblées dans une structure appelée ’sac’. — Intervalle de Réactivité : D’un point de vue pratique, prédire pour le lendemain pré- sente peu d’intérêt. Aussi, une stratégie courante consiste à appliquer un intervalle de réactivité qui, au cours de l’apprentissage, agit sur le modèle comme une contrainte d’anticipation. La taille de l’intervalle, exprimée par le paramètre RI, contrôle le dé- lais d’anticipation souhaité. — Intervalle d’Erreur : Intuitivement, cet intervalle, dont la taille est définie par le pa- ramètre EI, permet de prédire l’occurrence d’une erreur cible au cours d’un intervalle temporel donné, plutôt qu’à une unité de temps spécifique. Il introduit donc un degré d’incertitude sur la temporalité de la prédiction. Lopez et. al. FIG. 1: Les trois paramètres appliqués pour la prédiction, produisant le sac B1 de 3 jours 3 Méthodologie L’objectif étant d’établir un modèle prédictif binaire, la condition préalable est de former des exemples représentatifs de l’historique, étiquetés OUI ou NON. Definition 3.1. Soit Bi un sac et hj une erreur cible. Bi est étiqueté OUI ssi l’intervalle [i + PI + RI; i + PI + RI + EI −1] contient une occurrence de hj, il est étiqueté NON sinon. Exemple 3.1. Soient PI = 3, RI = 2 et EI = 2, l’erreur cible h1 et l’historique défini par le tableau 1. Pour définir l’étiquette du sac B1, nous devons vérifier si l’erreur h1 a été observée au cours des jours [6; 7]. Puisque ce n’est pas le cas, B1 est étiqueté NON. Ainsi, en appliquant la définition ci-dessus, on obtient à partir de l’historique, les sacs B1 et B2, étiquetés NON et les sacs B3 et B4, étiquetés OUI. Les sacs 5, 6, 7 et 8 ne peuvent être étiquetés car leur intervalles EI respectifs sont définis en dehors des limites de l’historique. Ils sont donc exclus de l’ensemble d’entraînement. La configuration ci-dessus (sacs étiquetés) est proche de celle rencontrée dans le Mul- tiple Instance Learning (MIL) Dietterich et al. (1997). Cependant, notre approche n’est pas conforme au MIL car la prédiction est basée sur le sac entier et non sur les exemples indivi- duels. Ainsi, notre méthode alternative consiste à synthétiser l’information de chaque sac Bi, en maximisant les valeurs pour former un exemple unique appelé méta-instance 1 Exemple 3.2. Soient PI = 3 et le sac B1 défini entre i = 1 et i = 3. B1 est synthétisé par le vecteur ⟨0, 12, 6, 2⟩, c’est-à-dire que pour chaque ℓj nous gardons la valeur maximale dans B1. Avec RI = 2, EI = 2, et l’erreur cible h1 on obtient les méta-instances décrites dans le volet droit de la figure 2. L’étape de pré-traitement est décrite par l’algorithme 1 où la séquence d’enregistrements T est obtenue à partir d’un journal de logs émis par une machine. Les enregistrements consé- cutifs sont rassemblés dans des sacs par fenêtre glissante de taille PI. Les sacs sont ensuite étiquetés puis leur contenu synthétisé en une meta-instance. La séquence T ′ obtenue en sortie de l’algorithme est utilisée comme donnée d’entrée du modèle d’apprentissage. La complexité de la préparation des données est linéairement proportionnelle à la taille de la séquence : la boucle la plus extérieure est exécutée O(|T|) fois. À chaque itération, les lignes de données PI sont synthétisées et l’étiquette est attribuée après identification du contenu de la ligne EI. Ainsi, la complexité globale est de O(|T| × (PI + EI)). On peut également noter que les itérations de la boucle extérieure peuvent être parallélisées puisqu’elles sont indépendantes les unes des autres. 1. Il existe d’autres méthodes de synthèse. Dans le cas d’usage présent, la fonction MAX() a été choisie car elle contribue aux bonnes performances de prédiction. Traitement des logs pour la prédiction d’erreurs critiques Estampille ℓ1 ℓ2 ℓ3 ℓ4 h1 h2 1 0 12 6 1 0 0 2 0 0 3 2 0 0 3 0 1 4 1 1 1 4 1 0 1 2 0 0 5 0 1 1 2 0 0 6 0 1 1 1 0 0 7 0 1 1 0 0 1 8 1 0 1 8 0 1 9 0 0 6 1 uploads/Industriel/ approche-de-traitement-des-logs-pour-la-prediction-d-erreurs-critiques.pdf

  • 133
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager