摘要
arXiv:2502.03824v3 公告类型: replace-cross
摘要: 大型语言模型(LLMs)已在许多AI应用中促进了进步。最近,有人尝试将LLMs的知识提炼到信息检索系统中。这些提炼方法大多使用LLMs的输出概率,而最新的黑盒LLMs中不可用。我们提出了Syntriever,这是一种使用来自黑盒LLMs的合成数据训练检索器的训练框架。Syntriever包括两个阶段。首先,在提炼阶段,我们使用思维链合成为给定查询合成相关和可能不相关的段落以及增强查询。然后,LLMs被要求自验证合成数据以检查是否存在幻觉,之后使用一种设计的损失进行训练,该损失用于聚类相关段落的嵌入。其次,在对齐阶段,我们将检索器与LLMs的偏好对齐。我们提出了一种称为部分Plackett-Luce排名的偏好建模方法,通过正则化防止模型在提炼阶段训练后过度偏离。实验表明,Syntriever在不同领域基准数据集的nDCG@$K$上实现了最先进的性能。代码可在 \href{https://github.com/kmswin1/Syntriever}{https://github.com/kmswin1/Syntriever} 获取。