LLM2D
ReasonIR:训练用于推理任务的检索器
ReasonIR: Training Retrievers for Reasoning Tasks
作者: Rulin Shao, Rui Qiao, Varsha Kishore, Niklas Muennighoff, Xi Victoria Lin, Daniela Rus, Bryan Kian Hsiang Low, Sewon Min, Wen-tau Yih, Pang Wei Koh, Luke Zettlemoyer
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20595v1

摘要

arXiv:2504.20595v1 Announce Type: 新 摘要: 我们展示了ReasonIR-8B,这是首个专门针对一般推理任务的检索器。现有检索器在推理任务上展现的增益有限,部分原因是现有训练数据集专注于与文档直接相关的简短事实查询。我们开发了一种合成数据生成管道,对于每份文档,该管道生成一个具有挑战性和相关性的查询,以及一个可能相关但最终无用的困难负样本。通过使用我们合成数据和现有公开数据的混合数据进行训练,ReasonIR-8B 在 BRIGHT 上实现了新的最佳性能,该基准是一个广泛使用的重推理型信息检索 (IR) 测试平台,在没有重新排名器的情况下达到 29.9 nDCG@10,使用重新排名器时达到 36.9 nDCG@10。当应用于 RAG 任务时,与闭卷基线相比,ReasonIR-8B 分别在 MMLU 和 GPQA 上提高了 6.4% 和 22.6% 的性能,超越了其他检索器和搜索引擎。此外,ReasonIR-8B 在测试时更有效地利用计算资源:在 BRIGHT 上,其性能随着查询更长和信息更丰富而持续提高;即使结合 LLM 重新排名器,它也继续优于其他检索器。我们的训练食谱是通用的,可以很容易地扩展到未来的 LLM;为此,我们开源了我们的代码、数据和模型。