摘要
合成长上下文 LLM 基准测试(例如,“大海捞针”)仅测试表层检索能力,但长上下文 LLM 在处理书籍长度的输入时,其检索、综合和推理能力如何?我们通过创建 NoCha 来解决这个问题,NoCha 是一个包含 1001 对关于 67 本最近出版的英语虚构书籍的真假主张的数据集,这些主张之间只有细微差别,由这些书籍的人类读者编写。与现有的长上下文基准测试相比,我们的标注者确认,NoCha 中大部分主张对都需要对整本书进行全局推理才能验证。我们的实验表明,虽然人类读者可以轻松完成这项任务,但对于我们评估的十个长上下文 LLM 来说,这极具挑战性:没有一个开放权重模型的表现超过随机机会(尽管它们在合成基准测试中表现出色),而 GPT-4o 的准确率最高,为 55.8%。进一步分析表明:(1)平均而言,模型在仅需句子级检索的对上表现明显优于全局推理的对;(2)模型为其决策生成的解释往往不准确,即使对于正确标记的主张也是如此;(3)模型在包含大量世界构建的科幻小说上表现明显更差。NoCha 中提出的方法允许基准数据集的演变,并可以轻松分析未来的模型。