LLM2D

摘要

arXiv:2504.20595v1 Announce Type: 新摘要: 我们展示了ReasonIR-8B，这是首个专门针对一般推理任务的检索器。现有检索器在推理任务上展现的增益有限，部分原因是现有训练数据集专注于与文档直接相关的简短事实查询。我们开发了一种合成数据生成管道，对于每份文档，该管道生成一个具有挑战性和相关性的查询，以及一个可能相关但最终无用的困难负样本。通过使用我们合成数据和现有公开数据的混合数据进行训练，ReasonIR-8B 在 BRIGHT 上实现了新的最佳性能，该基准是一个广泛使用的重推理型信息检索 (IR) 测试平台，在没有重新排名器的情况下达到 29.9 nDCG@10，使用重新排名器时达到 36.9 nDCG@10。当应用于 RAG 任务时，与闭卷基线相比，ReasonIR-8B 分别在 MMLU 和 GPQA 上提高了 6.4% 和 22.6% 的性能，超越了其他检索器和搜索引擎。此外，ReasonIR-8B 在测试时更有效地利用计算资源：在 BRIGHT 上，其性能随着查询更长和信息更丰富而持续提高；即使结合 LLM 重新排名器，它也继续优于其他检索器。我们的训练食谱是通用的，可以很容易地扩展到未来的 LLM；为此，我们开源了我们的代码、数据和模型。