LLM2D

摘要

arXiv:2504.05220v2 宣告类型: replace-cross 摘要: 检索模型通常依赖于昂贵的人工标记查询-文档相关性注解用于训练和评估。为了减少这种成本，并充分利用大型语言模型（LLM）在相关性判断方面的潜力，我们旨在探索LLM生成的注解是否可以有效地替代人工注解用于训练检索模型。检索通常侧重于相关性，这表明文档与查询之间的“主题相关性”，而在RAG中，文档的价值（或实用性）取决于其如何贡献于答案生成。认识到这种不匹配，一些研究人员使用LLM在文档上的下游任务性能作为标签，但这需要为特定任务手动回答，导致高成本和有限的泛化。另一些研究则是通过提示LLM选择有用的文档作为RAG参考来消除人工注解的需要，这并不针对特定任务。如果利用LLM的实用性判断对检索数据进行注解，我们可能在大规模语料库中保留跨任务的泛化能力而不进行人工注解。因此，我们在检索和RAG任务中的在域和跨域设置下，调查了通过LLM进行实用性注解的大规模检索训练数据。为了减少由LLM标记的低质量正例的影响，我们设计了一种新的损失函数，即Disj-InfoNCE。我们的实验表明：(1) 基于实用性注解训练的检索器在两个任务的跨域设置中显著优于基于人工注解训练的检索器，展示了更强的泛化能力。(2) 在域设置中，LLM注解并不能替代人工注解。然而，只需整合20%的人工标注数据，基于实用性注解训练的检索器就能达到完全使用人工注解训练的模型的性能。