LLM2D

摘要

arXiv:2402.18205v5 公告类型: replace-cross 摘要：广泛的软件系统产生的日志是监控系统行为的关键。先进的日志分析有助于检测、告警和诊断系统故障。日志解析，即把原始日志消息转换为结构化模板，是日志分析自动化的关键阶段。现有的日志解析器由于依赖于人工制定的规则，无法正确识别模板。此外，这些方法更多地关注统计特征，而忽视了日志消息中的语义信息。为了解决这些挑战，我们引入了一种前沿的日志解析框架 Entropy Sampling and Chain-of-Thought Merging (\model{})。具体来说，为了摒弃繁琐的手动规则，我们提出了一种由信息熵启发的新抽样方法，该方法能够高效地聚类典型日志。此外，为了增强日志模板的合并，我们为大型语言模型（LLMs）设计了一种链式推理方法。大型语言模型展现了卓越的语义理解能力，并能巧妙地区分参数和不变词。我们在大规模公开数据集上进行了实验。广泛的评估表明，\model{} 达到了最先进的性能和令人印象深刻的效率。代码可在 https://github.com/zwpride/lemur 获取。