Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique

Une nouvelle approche pour la détection d'anomalies dans les déploiements de logiciels

Ce cadre améliore la détection des problèmes de déploiement de logiciels pour améliorer les services en ligne.

― 6 min lire


Cadre de DétectionCadre de Détectiond'Anomalies Dévoilédéploiements de logiciels.Nouveau modèle améliore le suivi des
Table des matières

Dans le monde technologique d'aujourd'hui, plein de services en ligne tournent sur de gros systèmes informatiques où les mises à jour logicielles se font régulièrement. Ces mises à jour visent à améliorer les services, mais parfois, ça peut causer des soucis. Si un nouveau bout de code est défectueux, ça peut ralentir le service ou même entraîner un arrêt total. Ça peut toucher non seulement le service qui se fait mettre à jour mais aussi tous les autres services qui en dépendent. Donc, surveiller les mises à jour logicielles est super important pour identifier rapidement et régler les problèmes qui surviennent.

L'importance de surveiller les Déploiements

Surveiller les déploiements logiciels est crucial pour éviter les interruptions de service. Un déploiement, c'est le processus de mise à jour d'un logiciel ou de configurations dans un système, et chaque déploiement peut impacter les performances de plusieurs services interconnectés. Une Surveillance continue aide à attraper tout potentiel problème dès qu'il apparaît, permettant à l'équipe d'agir avant que les clients ne remarquent quoi que ce soit.

Défis de la Détection d'anomalies

La détection d'anomalies, c'est identifier des motifs inhabituels qui peuvent indiquer un problème. Dans le cadre des déploiements logiciels, repérer ces motifs peut être compliqué à cause de plusieurs défis :

  1. Hétérogénéité des déploiements : Différents services peuvent utiliser différents ensembles de métriques de performance, rendant difficile la comparaison directe de leurs performances. Par exemple, un service qui nécessite beaucoup de puissance de calcul aura des niveaux de performance normaux différents d'un service qui envoie des notifications.

  2. Exigences de faible latence : Dans beaucoup de cas, les déploiements se font rapidement. Un déploiement peut ne durer que quelques minutes, donc les outils doivent analyser les données en temps réel pour attraper les anomalies tout de suite.

  3. Définitions ambiguës des anomalies : Ce qui est considéré comme une anomalie peut varier. Une chute soudaine de performance pourrait indiquer un problème, mais ça peut aussi être quelque chose de normal lors du lancement d'une nouvelle fonctionnalité. Des définitions précises sont nécessaires pour faire la différence entre les deux.

  4. Labels limités pour la supervision : Dans de nombreux cas, on peut avoir peu de labels disponibles pour entraîner des modèles sur ce qui constitue un comportement normal ou anormal.

Pour surmonter ces problèmes, de nouvelles méthodes de détection d'anomalies ont été développées.

Un cadre novateur pour la détection d'anomalies

Le nouveau cadre vise à améliorer la manière dont on détecte les anomalies dans les déploiements logiciels en s'attaquant aux défis uniques auxquels nous faisons face. Le cadre se compose de deux parties principales :

  1. Extracteur de caractéristiques en ligne : Cette partie collecte et transforme les données de différents services en un espace de caractéristiques uniforme pour pouvoir comparer directement les métriques de divers services.

  2. Module de détection d'anomalies : Ce module utilise les données transformées pour identifier quels déploiements agissent de manière inhabituelle.

Composants du cadre

Extraction de caractéristiques en ligne

L'extracteur de caractéristiques est vital car il s'occupe des différents types de données provenant de divers déploiements. Il fonctionne en convertissant les métriques de performance brutes en scores comparables basés sur leur performance historique. Cela permet de détecter des anomalies en temps réel, même quand les données varient en longueur ou en type.

  • Caractéristiques basées sur des règles : Cette approche utilise des règles prédéfinies basées sur des connaissances d'experts pour scorer les métriques. Si une métrique dépasse un certain seuil, elle est signalée comme potentiellement une anomalie.

  • Caractéristiques basées sur des algorithmes : Ces caractéristiques appliquent des algorithmes bien connus pour identifier des motifs inhabituels basés sur des données historiques. Cela aide à repérer les métriques qui peuvent avoir une performance anormale.

  • Caractéristiques de méta-données : Des données statiques supplémentaires sur chaque service, comme sa configuration, aident à fournir un contexte pour les métriques analysées.

Modèle de détection d'anomalies

Une fois les caractéristiques extraites, elles sont alimentées dans le modèle de détection d'anomalies. Ce modèle combine différentes techniques pour améliorer sa capacité à identifier les problèmes :

  1. Modèle de classe unique semi-supervisé : Cette méthode utilise un petit nombre d'exemples étiquetés pour apprendre à quoi ressemble un comportement normal et identifie tout ce qui est en dehors de ça comme une anomalie. C'est particulièrement efficace dans des situations où les données sont bruyantes ou incomplètes.

  2. Détecteur d'anomalies supervisé : Un deuxième modèle est utilisé pour confirmer les prédictions faites par le premier modèle. Cela crée un système global plus robuste.

Évaluation du cadre

L'efficacité du nouveau cadre a été testée en utilisant des données réelles provenant de déploiements. Les résultats montrent des améliorations significatives dans l'identification des anomalies par rapport aux méthodes existantes. Voici quelques résultats notables :

  • Le nouveau modèle peut surpasser les meilleures méthodes de manière considérable, mettant en avant ses forces dans la gestion des défis uniques des déploiements logiciels.

  • Il permet une meilleure surveillance de divers services, facilitant des réponses plus rapides aux problèmes dès qu'ils surviennent.

  • Les évaluations des utilisateurs indiquent que le modèle est adapté aux applications réelles et peut améliorer l'expérience utilisateur en minimisant les interruptions causées par des déploiements défectueux.

Conclusion

Avec la montée en puissance des applications cloud-native dans l'industrie tech, une surveillance efficace des déploiements logiciels est essentielle. Le cadre proposé s'attaque aux défis courants liés à la détection d'anomalies dans ces systèmes. En utilisant une combinaison d'extraction de caractéristiques et de techniques avancées de détection d'anomalies, il améliore la capacité à détecter les problèmes avant qu'ils ne dégénèrent en plus gros soucis. Ça aide à garantir des opérations plus fluides pour les services en ligne et une meilleure expérience pour les utilisateurs.

Source originale

Titre: MELODY: Robust Semi-Supervised Hybrid Model for Entity-Level Online Anomaly Detection with Multivariate Time Series

Résumé: In large IT systems, software deployment is a crucial process in online services as their code is regularly updated. However, a faulty code change may degrade the target service's performance and cause cascading outages in downstream services. Thus, software deployments should be comprehensively monitored, and their anomalies should be detected timely. In this paper, we study the problem of anomaly detection for deployments. We begin by identifying the challenges unique to this anomaly detection problem, which is at entity-level (e.g., deployments), relative to the more typical problem of anomaly detection in multivariate time series (MTS). The unique challenges include the heterogeneity of deployments, the low latency tolerance, the ambiguous anomaly definition, and the limited supervision. To address them, we propose a novel framework, semi-supervised hybrid Model for Entity-Level Online Detection of anomalY (MELODY). MELODY first transforms the MTS of different entities to the same feature space by an online feature extractor, then uses a newly proposed semi-supervised deep one-class model for detecting anomalous entities. We evaluated MELODY on real data of cloud services with 1.2M+ time series. The relative F1 score improvement of MELODY over the state-of-the-art methods ranges from 7.6% to 56.5%. The user evaluation suggests MELODY is suitable for monitoring deployments in large online systems.

Auteurs: Jingchao Ni, Gauthier Guinet, Peihong Jiang, Laurent Callot, Andrey Kan

Dernière mise à jour: 2024-06-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2401.10338

Source PDF: https://arxiv.org/pdf/2401.10338

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires