LLM2D

摘要

arXiv:2504.04150v1 宣告类型: 交叉摘要: 针对大量背景信息（The Needle In A Haystack, NIAH）任务已被广泛用于评估大型语言模型（LLMs）的长上下文问答能力。然而，其依赖于简单的检索方法限制了其有效性。为解决这一局限，最近的研究引入了多针在大量背景信息中的推理（Multiple Needles In A Haystack Reasoning, MNIAH-R）任务，将多跳推理任务的支持文档（Multiple needles）整合到一个分散注意力的上下文（Haystack）中。尽管取得了这一进展，现有的方法仍然无法解决模型从内部知识直接提供答案的问题，也没有解释或减轻随着上下文长度增加而准确度下降的问题。在本文中，我们通过筛选出直接回答的问题来应对基于记忆的回答问题，并揭示了性能下降主要是由于随着输入长度增加，思考过程的长度减少而驱动的。基于这一洞见，我们将思考过程分解为检索和推理阶段，并引入了一种多轮扩展的反思机制。我们还使用生成的反思过程训练了一个模型，这有助于减轻性能下降。此外，我们展示了这种检索-反思能力在数学推理场景中的应用，提高了GPT-4o在AIME2024上的性能。