摘要
arXiv:2502.05252v1 类型: cross
摘要: 长上下文大语言模型(LLMs)最近在信息检索和长文档问答任务中展示了强大的性能。然而,为了应对最复杂的知识性问题,LLMs 必须有效地在长而复杂的上下文中进行推理(例如,前沿数学研究)。研究LLMs如何处理不断增加的推理复杂性和上下文长度至关重要,而现有的基准缺乏用于定量评估的坚实基础。受到GSM-8K问题抽象为计算图的启发,以及通过增加不必要的节点和边引入噪声的能力,我们开发了一个小学数学问题生成器,能够在细粒度控制下生成具有无限难度和上下文长度的算术问题。使用我们新合成的GSM-Infinite基准,我们全面评估了现有的LLMs。我们发现推理性能随复杂性的增加呈现出一致的Sigmoid下降趋势,并且系统性的推理扩展趋势是:指数增加的推理计算仅带来线性的性能提升。这些发现突显了当前长上下文LLMs的基本局限性以及扩展推理能力的关键挑战。我们的GSM-Infinite基准提供了用于系统研究和推进LLMs在长而复杂上下文中的推理能力的可扩展且可控制的测试床。