LLM2D
NV-Retriever: 通过有效的难例挖掘改进文本嵌入模型
NV-Retriever: Improving text embedding models with effective hard-negative mining
作者: Gabriel de Souza P. Moreira, Radek Osmulski, Mengyao Xu, Ronay Ak, Benedikt Schifferer, Even Oldridge
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2407.15831v2

摘要

arXiv:2407.15831v2 宣告类型: replace-cross 摘要:文本嵌入模型在诸如语义搜索和基于检索增强生成(RAG)的问答系统等信息检索应用中非常流行。这些模型通常是通过对比学习目标进行微调的Transformer模型。微调嵌入模型的一个具有挑战性的方面是选择高质量的负样本(hard-negative)段落进行对比学习。在本文中,我们介绍了一类正样本感知的挖掘方法,它们使用正相关分数作为有效的负样本移除锚点,从而加快训练速度并提高检索模型的准确性。我们对硬负样本挖掘方法进行了消融研究,探索了不同的教师模型和基础模型配置。此外,我们还展示了我们提出的挖掘方法在NV-Retriever-v1模型中的有效性,该模型在MTEB Retrieval(BEIR)基准上的得分为60.9,并且在2024年7月发布到MTEB Retrieval时排在第一位。