摘要
虽然已经出现了许多用于评估长上下文语言模型 (LCLMs) 的基准,但开发者通常依赖于合成任务,例如大海捞针 (NIAH) 或任务的任意子集。这些方法是否能转化为 LCLMs 的各种下游应用尚不清楚,这种不一致性进一步加剧了模型比较的难度。我们调查了当前做法背后的根本原因,发现现有的基准由于应用覆盖率低、长度不足、指标不可靠以及与基础模型不兼容,往往会产生噪声信号。在这项工作中,我们提出了 HELMET(如何有效且彻底地评估长上下文模型),这是一个包含七个不同应用为中心的类别的综合基准。我们还通过添加高达 128k 个标记的可控长度、基于模型的评估以获得可靠指标以及少样本提示以稳健地评估基础模型,解决了以前基准中的许多问题。因此,我们证明 HELMET 提供了更可靠和一致的前沿 LCLMs 排名。通过对 51 个 LCLMs 的全面研究,我们发现:(1) 像 NIAH 这样的合成任务不是下游性能的良好预测指标;(2) HELMET 中的不同类别表现出不同的趋势,彼此之间相关性很低;(3) 虽然大多数 LCLMs 在 NIAH 任务中取得了完美的分数,但当任务需要全上下文推理或遵循复杂指令时,开源模型明显落后于闭源模型——差距随着长度的增加而扩大。最后,我们建议使用我们的 RAG 任务进行快速模型开发,因为它们易于运行,并且更能预测其他下游性能;最终,我们主张在各种任务中进行全面评估。