摘要
许多基准用于评估长上下文语言模型(LCLMs),但开发者通常依赖于合成任务,如大海捞针(NIAH)或任务的任意子集。目前尚不清楚这些任务是否能转化为 LCLMs 的各种下游应用,而这种不一致性进一步加剧了模型比较的难度。我们调查了当前做法背后的根本原因,发现现有基准由于应用覆盖率低、长度不足、指标不可靠以及与基础模型不兼容,往往会提供嘈杂的信号。在这项工作中,我们提出了 HELMET(如何有效彻底地评估长上下文模型),这是一个涵盖七个不同应用中心类别的综合基准。我们还通过添加高达 128k 个标记的可控长度、基于模型的评估以获得可靠的指标以及用于稳健评估基础模型的少样本提示,解决了先前基准中的许多问题。因此,我们证明 HELMET 提供了更可靠、更一致的前沿 LCLMs 排名。通过对 51 个 LCLMs 的全面研究,我们发现 (1) 像 NIAH 这样的合成任务不是下游性能的良好预测指标;(2) HELMET 中的不同类别表现出不同的趋势,彼此之间的相关性很低;(3) 虽然大多数 LCLMs 在 NIAH 任务中取得了完美的分数,但当任务需要全上下文推理或遵循复杂的指令时,开源模型明显落后于封闭模型——随着长度的增加,差距会扩大。最后,我们建议使用我们的 RAG 任务进行快速模型开发,因为它们易于运行,并且更能预测其他下游性能;最终,我们主张在各种任务中进行全面评估。