摘要
arXiv:2411.08561v5 宣告类型: replace-cross
摘要:软件系统通常记录关键的运行时信息在日志中,以帮助故障排除。基于日志的异常检测已成为一个关键的研究领域,旨在通过日志数据识别系统问题,最终提高软件系统的可靠性。传统的深度学习方法往往难以捕捉嵌入在日志数据中的语义信息,而这些数据通常是以自然语言组织的。在本文中,我们提出了LogLLM,这是一种基于日志的异常检测框架,利用了大型语言模型(LLMs)。LogLLM 使用 BERT 从日志消息中提取语义向量,同时使用基于变压器解码器的模型 Llama 对日志序列进行分类。此外,我们引入了一个投影器,以对齐 BERT 和 Llama 的向量表示空间,确保对日志语义的一致理解。与传统的需要日志解析器提取模板的方法不同,LogLLM 使用正则表达式预处理日志消息,简化了整个过程。我们的框架通过一种新颖的三阶段训练流程进行训练,旨在提高性能和适应性。在四个公开数据集上的实验结果表明,LogLLM 超过了最先进的方法。即使处理不稳定的日志,它也能准确捕捉日志消息的语义意义并检测异常。