LLM2D

摘要

arXiv:2502.05252v1 类型: cross 摘要: 长上下文大语言模型（LLMs）最近在信息检索和长文档问答任务中展示了强大的性能。然而，为了应对最复杂的知识性问题，LLMs 必须有效地在长而复杂的上下文中进行推理（例如，前沿数学研究）。研究LLMs如何处理不断增加的推理复杂性和上下文长度至关重要，而现有的基准缺乏用于定量评估的坚实基础。受到GSM-8K问题抽象为计算图的启发，以及通过增加不必要的节点和边引入噪声的能力，我们开发了一个小学数学问题生成器，能够在细粒度控制下生成具有无限难度和上下文长度的算术问题。使用我们新合成的GSM-Infinite基准，我们全面评估了现有的LLMs。我们发现推理性能随复杂性的增加呈现出一致的Sigmoid下降趋势，并且系统性的推理扩展趋势是：指数增加的推理计算仅带来线性的性能提升。这些发现突显了当前长上下文LLMs的基本局限性以及扩展推理能力的关键挑战。我们的GSM-Infinite基准提供了用于系统研究和推进LLMs在长而复杂上下文中的推理能力的可扩展且可控制的测试床。