摘要
arXiv:2504.00058v1 声明类型: cross
摘要:微服务的转变革新了软件架构,提供了增强的可扩展性和模块化。然而,微服务的分布式和动态性质引入了确保系统可靠性的复杂性,使得异常检测对于维护性能和功能变得至关重要。源自网络和性能问题的异常必须迅速被识别和解决。现有的异常检测技术往往依赖于统计模型或机器学习方法,这些方法在处理微服务应用程序中固有的高维和互相关数据时表现出局限性。当前的技术和可用的数据集主要集中在系统跟踪和日志上,限制了它们支持高级检测模型的能力。本文通过引入使用开源RobotShop微服务应用生成的RS-Anomic数据集来弥补这些差距。该数据集在正常和异常条件下捕捉多变量性能指标和响应时间,涵盖了十种类型的异常。我们提出了一种名为Graph Attention和LSTM基于微服务异常检测(GAL-MAD)的新颖异常检测模型,通过结合Graph Attention和长短期记忆架构来捕捉微服务中的空间和时间依赖性。我们利用SHAP值来定位异常服务并识别根本原因,以增强可解释性。实验结果表明,GAL-MAD在RS-Anomic数据集上的表现优于最先进的模型,在不同异常率下实现更高的准确性和召回率。解释提供了关于服务异常的具体洞察,有助于系统管理员。