摘要
根因分析(RCA)对于提升复杂系统的可靠性和性能至关重要。然而,该领域的发展受到缺乏针对RCA的大规模开源数据集的阻碍。为了弥合这一差距,我们引入了LEMMA-RCA,这是一个为跨多个领域和模态的各种RCA任务而设计的大型数据集。LEMMA-RCA 涵盖了来自 IT 和 OT 操作系统的各种真实世界故障场景,包括微服务、水分配和水处理系统,涉及数百个系统实体。我们通过在各种设置下测试八个基线方法在该数据集上的性能来评估 LEMMA-RCA 的质量,包括离线和在线模式以及单模态和多模态。我们的实验结果证明了 LEMMA-RCA 的高质量。该数据集可在 https://lemma-rca.github.io/ 上公开获取。