LLM2D
基于策略梯度的语言模型排序训练
Policy-Gradient Training of Language Models for Ranking
作者: Ge Gao, Jonathan D. Chang, Claire Cardie, Kiant\'e Brantley, Thorsten Joachim
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2310.04407v2

摘要

文本检索在将事实知识融入语言处理流程(从基于聊天的网络搜索到问答系统)的决策过程中发挥着至关重要的作用。当前最先进的文本检索模型利用预训练的大型语言模型 (LLM) 来实现具有竞争力的性能,但通过典型的对比损失训练基于 LLM 的检索器需要复杂的启发式方法,包括选择难负样本和使用额外的监督作为学习信号。这种对启发式的依赖源于对比损失本身就是启发式的,它并不直接优化处理流程末端决策质量的下游指标。为了解决这个问题,我们引入了神经 PG-RANK,这是一种新颖的训练算法,它通过将 LLM 实例化为 Plackett-Luce 排序策略来学习排序。神经 PG-RANK 提供了一种利用策略梯度对检索模型进行端到端训练的原则性方法,作为更大决策系统的一部分,很少依赖复杂的启发式方法,并且它有效地将训练目标与下游决策质量统一起来。我们在各种文本检索基准上进行了广泛的实验。结果表明,当训练目标与评估设置一致时,神经 PG-RANK 会产生显著的领域内性能改进,并在用于下游问答任务的一些关键数据集上实现显著的领域外泛化能力。