LLM2D
haystack 中的多根针的原因推理
Reasoning on Multiple Needles In A Haystack
作者: Yidong Wang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04150v1

摘要

arXiv:2504.04150v1 宣告类型: 交叉 摘要: 针对大量背景信息(The Needle In A Haystack, NIAH)任务已被广泛用于评估大型语言模型(LLMs)的长上下文问答能力。然而,其依赖于简单的检索方法限制了其有效性。为解决这一局限,最近的研究引入了多针在大量背景信息中的推理(Multiple Needles In A Haystack Reasoning, MNIAH-R)任务,将多跳推理任务的支持文档(Multiple needles)整合到一个分散注意力的上下文(Haystack)中。尽管取得了这一进展,现有的方法仍然无法解决模型从内部知识直接提供答案的问题,也没有解释或减轻随着上下文长度增加而准确度下降的问题。在本文中,我们通过筛选出直接回答的问题来应对基于记忆的回答问题,并揭示了性能下降主要是由于随着输入长度增加,思考过程的长度减少而驱动的。基于这一洞见,我们将思考过程分解为检索和推理阶段,并引入了一种多轮扩展的反思机制。我们还使用生成的反思过程训练了一个模型,这有助于减轻性能下降。此外,我们展示了这种检索-反思能力在数学推理场景中的应用,提高了GPT-4o在AIME2024上的性能。