摘要
arXiv:2504.05181v1 交叉类型:公告
摘要:生成式信息检索(GenIR)是一种有前景的神经检索范式,它将文档检索任务建模为文档标识符(docid)生成任务,从而可以实现针对统一全局检索目标的端到端优化。然而,现有的GenIR模型存在标记级对齐问题,即训练模型预测下一个标记时,往往无法有效地捕捉文档级别的相关性。尽管基于强化学习的方法,如相关反馈强化学习(RLRF),试图通过奖励建模来解决这个对齐问题,但它们引入了显著的复杂性,需要优化一个辅助的奖励函数,然后进行强化微调,这在计算上是昂贵的且往往不稳定。为了解决这些挑战,我们提出了直接文档相关性优化(DDRO),该方法通过直接优化对文档级别的相关性进行估算,将标记级别docid生成与文档级别相关性对齐,从而消除了显式奖励建模和强化学习的需求。在MS MARCO文档和自然问题等基准数据集上的实验结果显示,DDRO在MS MARCO上的MRR@10性能比基于强化学习的方法高出7.4%,在自然问题上的性能提高了19.9%。这些发现突显了DDRO在简化优化方法的情况下提高检索效果的潜力。通过将对齐问题建模为直接优化问题,DDRO简化了GenIR模型的排名优化管道,并提供了一种基于强化学习方法的可行替代方案。