LLM2D

摘要

arXiv:2504.20462v1 通知类型: 新摘要: 随着分布式系统的不断发展，微服务和云原生技术已成为现代企业软件开发的核心。尽管这些技术带来了显著的优势，但也增加了系统的复杂性和运维挑战。传统的根本原因分析（RCA）在实现自动化故障响应方面面临困难，严重依赖于人工干预。近年来，大型语言模型（LLMs）在上下文推断和领域知识整合方面取得了突破，为运维人工智能（AIOps）提供了新的解决方案。然而，现有的基于LLM的方法面临三个关键挑战：文本输入约束、动态服务依赖关系的幻觉以及上下文窗口限制。为了解决这些问题，我们提出了一种工具辅助的多模态LLM代理，名为TAMO，用于细粒度的根本原因分析。它将多模态观测数据统一为时间对齐的表示，以提取一致的特征，并采用专门的根本原因定位和故障分类工具来感知上下文环境。这种方法克服了LLM在处理实时变化的服务依赖关系和原始观测数据方面的限制，并通过将关键信息结构化为提示，引导LLM生成与系统上下文一致的修复策略。实验结果表明，当处理具有异构性和常见故障类型的公开数据集时，TAMO在根本原因分析方面表现出色，证明了其有效性。