LLM2D

摘要

arXiv:2504.05181v2 宣布类型: replace-cross 摘要：生成式信息检索（GenIR）是一种有前途的神经检索范式，将文档检索建模为文档标识符（docid）生成任务，从而实现面向统一全局检索目标的端到端优化。然而，现有的GenIR模型存在token级别的对齐问题，其中训练模型预测下一个token往往难以有效捕捉文档级别的相关性。虽然基于强化学习的方法，如相关反馈强化学习（RLRF），试图通过奖励建模来解决这种对齐问题，但它们引入了显著的复杂性，需要优化一个辅助奖励函数，随后进行强化学习微调，这在计算上非常昂贵且往往不稳定。为了解决这些挑战，我们提出直接文档相关性优化（DDRO），通过直接优化来使token级别的docid生成与文档级别的相关性估计对齐，从而消除显式的奖励建模和强化学习的需要。在MS MARCO文档和自然问题等基准数据集上的实验结果表明，DDRO在MS MARCO上的MRR@10上优于基于强化学习的方法，提升了7.4%，在自然问题上的提升则达到了19.9%。这些发现突显了DDRO在简化优化方法下增强检索效果的潜在价值。通过将对齐问题视为直接优化问题，DDRO简化了GenIR模型的排名优化流水线，同时为基于强化学习的方法提供了可行的替代方案。