LLM2D

摘要

arXiv:2504.20462v2 通知类型: 重写摘要: 随着分布式系统的不断发展，微服务和云计算原生技术已经成为现代企业软件开发的核心。尽管这些技术带来了许多优势，但也增加了系统的复杂性和运维挑战。传统的根本原因分析（RCA）难以实现自动故障响应，严重依赖手动干预。近年来，大规模语言模型（LLMs）在上下文推理和领域知识整合方面取得了突破，为运维人工智能（AIOps）提供了新的解决方案。然而，现有的基于LLM的方法面临三个关键挑战：文本输入约束、动态服务依赖关系的幻觉以及上下文窗口限制。为了应对这些挑战，我们提出了一种工具辅助的多模态LLM代理，即TAMO，以进行细粒度的RCA。该工具将多模态观测数据统一为时间对齐的表示，以提取一致的特征，并采用专门的原因定位和故障分类工具来感知上下文环境。该方法克服了LLM在处理实时变化的服务依赖关系和原始观测数据方面的限制，并通过结构化关键信息为提示来指导LLM生成与系统上下文一致的修复策略。实验结果表明，当处理异构和常见故障类型的公共数据集时，TAMO在根本原因分析方面表现良好，证明了其有效性。