LLM2D

摘要

arXiv:2504.05181v1 交叉类型：公告摘要：生成式信息检索（GenIR）是一种有前景的神经检索范式，它将文档检索任务建模为文档标识符（docid）生成任务，从而可以实现针对统一全局检索目标的端到端优化。然而，现有的GenIR模型存在标记级对齐问题，即训练模型预测下一个标记时，往往无法有效地捕捉文档级别的相关性。尽管基于强化学习的方法，如相关反馈强化学习（RLRF），试图通过奖励建模来解决这个对齐问题，但它们引入了显著的复杂性，需要优化一个辅助的奖励函数，然后进行强化微调，这在计算上是昂贵的且往往不稳定。为了解决这些挑战，我们提出了直接文档相关性优化（DDRO），该方法通过直接优化对文档级别的相关性进行估算，将标记级别docid生成与文档级别相关性对齐，从而消除了显式奖励建模和强化学习的需求。在MS MARCO文档和自然问题等基准数据集上的实验结果显示，DDRO在MS MARCO上的MRR@10性能比基于强化学习的方法高出7.4%，在自然问题上的性能提高了19.9%。这些发现突显了DDRO在简化优化方法的情况下提高检索效果的潜力。通过将对齐问题建模为直接优化问题，DDRO简化了GenIR模型的排名优化管道，并提供了一种基于强化学习方法的可行替代方案。