LLM2D
Syntriever: 如何使用大型语言模型生成的合成数据训练检索器
Syntriever: How to Train Your Retriever with Synthetic Data from LLMs
作者: Minsang Kim, Seungjun Baek
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03824v1

摘要

arXiv:2502.03824v1 通知类型: 交叉 摘要: 大型语言模型在许多AI应用中推动了进步。最近,有人尝试将大型语言模型的大量知识提炼到信息检索系统中。这些提炼方法主要使用大型语言模型的输出概率,但在最新的黑盒大型语言模型中不可用。我们提出了Syntriever,这是一种使用黑盒大型语言模型的合成数据训练检索器的训练框架。Syntriever包含两个阶段。首先,在提炼阶段,我们使用因果推理生成与给定查询相关和可能无关的段落以及增强查询。要求大型语言模型验证合成数据以防止幻觉,然后使用设计用于聚类相关段落嵌入的损失函数训练检索器。其次,在对齐阶段,我们使检索器与大型语言模型的偏好保持一致。我们提出了部分Plackett-Luce排名偏好建模,通过正则化来学习大型语言模型的偏好,这防止模型过度偏离在提炼阶段训练的模型。实验结果显示,Syntriever在各种领域的基准数据集中达到了NDCG@K的最佳性能。代码可在 \href{https://github.com/kmswin1/Syntriever}{https://github.com/kmswin1/Syntriever} 获取。