摘要
arXiv:2402.18205v5 公告类型: replace-cross
摘要:广泛的软件系统产生的日志是监控系统行为的关键。先进的日志分析有助于检测、告警和诊断系统故障。日志解析,即把原始日志消息转换为结构化模板,是日志分析自动化的关键阶段。现有的日志解析器由于依赖于人工制定的规则,无法正确识别模板。此外,这些方法更多地关注统计特征,而忽视了日志消息中的语义信息。为了解决这些挑战,我们引入了一种前沿的日志解析框架 Entropy Sampling and Chain-of-Thought Merging (\model{})。具体来说,为了摒弃繁琐的手动规则,我们提出了一种由信息熵启发的新抽样方法,该方法能够高效地聚类典型日志。此外,为了增强日志模板的合并,我们为大型语言模型(LLMs)设计了一种链式推理方法。大型语言模型展现了卓越的语义理解能力,并能巧妙地区分参数和不变词。我们在大规模公开数据集上进行了实验。广泛的评估表明,\model{} 达到了最先进的性能和令人印象深刻的效率。代码可在 https://github.com/zwpride/lemur 获取。