摘要
arXiv:2502.03824v2 文献类型: replace-cross
摘要:大规模语言模型(LLMs)在许多AI应用中提升了进展。最近,有人试图将LLMs的大量知识提炼到信息检索系统中。这些提炼方法主要使用LLMs的输出概率,而在最新的黑盒LLMs中这些概率是不可用的。我们提出了一种名为Syntriever的检索训练框架,该框架利用黑盒LLMs生成的合成数据进行训练。Syntriever包含两个阶段。首先,在提炼阶段,我们使用chain-of-thoughts生成相关的和看似不相关的小节以及增强的查询,然后请求LLM自我验证生成的数据是否存在幻觉。验证后,使用设计用于聚类相关段落嵌入的损失函数训练检索器。其次,在对齐阶段,我们使检索器与LLMs的偏好对齐。我们提出了一种部分Plackett-Luce排名的偏好建模方法,通过正则化来学习LLMs的偏好,以防止模型在对齐阶段过度偏离训练内容。实验结果显示,Syntriever在各领域的基准数据集上实现了最先进的nDCG@$K$性能。代码可在 \href{https://github.com/kmswin1/Syntriever}{https://github.com/kmswin1/Syntriever} 获取。