LLM2D

摘要

事件序列，其特点是不规则的采样间隔以及混合的分类和数值特征，是现实世界中许多领域常见的數據结构，例如医疗保健、金融和用户交互日志。尽管时间数据建模技术取得了进展，但目前还没有用于评估其在事件序列上性能的标准化基准。由于评估协议的不同，不同论文之间结果的比较变得复杂，这可能会误导该领域的进展。我们引入了 EBES，这是一个具有标准化评估场景和协议的综合基准工具，重点关注具有序列级目标的回归和分类问题。我们的库通过统一的接口简化了基准测试、数据集添加和方法集成。它包括一个新颖的合成数据集，并提供预处理的真实世界数据集，包括最大的公开可用的银行数据集。我们的结果对数据集进行了深入分析，发现其中一些不适合模型比较。我们研究了建模时间和序列组件的重要性，以及模型的鲁棒性和扩展特性。这些发现突出了未来研究的潜在方向。我们的基准目标是促进可重复的研究，加快进展并增加现实世界的影响。