摘要
arXiv:2504.00058v2 通告类型: replace-cross
摘要:向微服务的过渡彻底改变了软件架构,提供了更好的可扩展性和模块性。然而,微服务的分布式和动态特性带来了确保系统可靠性的复杂性,使得异常检测对于保持性能和功能至关重要。源自网络和性能问题的异常必须迅速地被识别和处理。现有的异常检测技术往往依赖于统计模型或机器学习方法,这些方法在处理微服务应用中存在的高维和相互依赖的数据时存在困难。当前的技术和可用的数据集主要集中在系统跟踪和日志上,限制了它们支持高级检测模型的能力。本文通过引入使用开源RobotShop微服务应用生成的RS-Anomic数据集来弥补这些差距。该数据集在正常和异常状态下捕捉了多变量性能指标和响应时间,涵盖了十种类型的异常。我们提出了一种名为Graph Attention and LSTM-based Microservice Anomaly Detection (GAL-MAD)的新异常检测模型,利用Graph Attention和Long Short-Term Memory架构来捕捉微服务中的空间和时间依赖性。我们利用SHAP值来定位异常常常的服务并识别根本原因,以提高解释性。实验结果表明,GAL-MAD在RS-Anomic数据集上优于最先进的模型,能够在不同异常率下实现更高的准确率和召回率。这些解释为服务异常提供了可操作的洞察,对系统管理员有益。