LLM2D

摘要

合成长上下文 LLM 基准测试（例如，“大海捞针”）仅测试表层检索能力，但长上下文 LLM 在处理书籍长度的输入时，其检索、综合和推理能力如何？我们通过创建 NoCha 来解决这个问题，NoCha 是一个包含 1001 对关于 67 本最近出版的英语虚构书籍的真假主张的数据集，这些主张之间只有细微差别，由这些书籍的人类读者编写。与现有的长上下文基准测试相比，我们的标注者确认，NoCha 中大部分主张对都需要对整本书进行全局推理才能验证。我们的实验表明，虽然人类读者可以轻松完成这项任务，但对于我们评估的十个长上下文 LLM 来说，这极具挑战性：没有一个开放权重模型的表现超过随机机会（尽管它们在合成基准测试中表现出色），而 GPT-4o 的准确率最高，为 55.8%。进一步分析表明：（1）平均而言，模型在仅需句子级检索的对上表现明显优于全局推理的对；（2）模型为其决策生成的解释往往不准确，即使对于正确标记的主张也是如此；（3）模型在包含大量世界构建的科幻小说上表现明显更差。NoCha 中提出的方法允许基准数据集的演变，并可以轻松分析未来的模型。