摘要
arXiv:2504.20462v2 通知类型: 重写
摘要: 随着分布式系统的不断发展,微服务和云计算原生技术已经成为现代企业软件开发的核心。尽管这些技术带来了许多优势,但也增加了系统的复杂性和运维挑战。传统的根本原因分析(RCA)难以实现自动故障响应,严重依赖手动干预。近年来,大规模语言模型(LLMs)在上下文推理和领域知识整合方面取得了突破,为运维人工智能(AIOps)提供了新的解决方案。然而,现有的基于LLM的方法面临三个关键挑战:文本输入约束、动态服务依赖关系的幻觉以及上下文窗口限制。为了应对这些挑战,我们提出了一种工具辅助的多模态LLM代理,即TAMO,以进行细粒度的RCA。该工具将多模态观测数据统一为时间对齐的表示,以提取一致的特征,并采用专门的原因定位和故障分类工具来感知上下文环境。该方法克服了LLM在处理实时变化的服务依赖关系和原始观测数据方面的限制,并通过结构化关键信息为提示来指导LLM生成与系统上下文一致的修复策略。实验结果表明,当处理异构和常见故障类型的公共数据集时,TAMO在根本原因分析方面表现良好,证明了其有效性。