摘要
arXiv:2407.15831v2 宣告类型: replace-cross
摘要:文本嵌入模型在诸如语义搜索和基于检索增强生成(RAG)的问答系统等信息检索应用中非常流行。这些模型通常是通过对比学习目标进行微调的Transformer模型。微调嵌入模型的一个具有挑战性的方面是选择高质量的负样本(hard-negative)段落进行对比学习。在本文中,我们介绍了一类正样本感知的挖掘方法,它们使用正相关分数作为有效的负样本移除锚点,从而加快训练速度并提高检索模型的准确性。我们对硬负样本挖掘方法进行了消融研究,探索了不同的教师模型和基础模型配置。此外,我们还展示了我们提出的挖掘方法在NV-Retriever-v1模型中的有效性,该模型在MTEB Retrieval(BEIR)基准上的得分为60.9,并且在2024年7月发布到MTEB Retrieval时排在第一位。