LLM2D

摘要

arXiv:2504.05220v1 类别: 交叉领域摘要:检索模型通常依赖于昂贵的人工标注查询-文档相关性注释来进行训练和评估。为了降低这种成本并利用大型语言模型（LLMs）在相关性判断方面的潜力，我们旨在探索LLM生成的注释是否能够有效地替代人工注释来训练检索模型。检索通常强调相关性，这指的是文档与查询之间的“主题相关性”，而在RAG（检索-生成答案）中，文档的价值（或效用）取决于它对答案生成的贡献。认识到这一点，一些研究者使用LLM在使用文档作为标签的下游任务上的表现作为标签，但这种方法需要特定任务的手动答案，导致高昂的成本和有限的泛化能力。在另一项研究中，提示LLM选择有用的文档作为RAG参考文献，消除了人工注释的需要且不是任务特定的。如果我们利用LLM的效用判断来标注检索数据，我们可以在大规模语料库中保留跨任务泛化能力而无需人工注释。因此，我们研究了使用LLM进行大尺度检索训练数据的效用导向标注，涵盖检索和RAG任务的领域内和领域外设置。为了减少由LLM标注的低质量正样本的影响，我们设计了一种新的损失函数，即Disj-InfoNCE。我们的实验揭示了以下几点：(1) 在领域外设置中进行效用导向标注训练的检索模型明显优于使用人工标注训练的检索模型，展示了更强的泛化能力。(2) 在领域内设置中，LLM注释并不能完全替代人工注释。然而，仅将20%的人工标注数据纳入训练，使用效用导向标注训练的检索模型就能达到完全使用人工标注数据训练的模型的性能。