LLM2D

摘要

arXiv:2407.15831v2 宣告类型: replace-cross 摘要：文本嵌入模型在诸如语义搜索和基于检索增强生成（RAG）的问答系统等信息检索应用中非常流行。这些模型通常是通过对比学习目标进行微调的Transformer模型。微调嵌入模型的一个具有挑战性的方面是选择高质量的负样本（hard-negative）段落进行对比学习。在本文中，我们介绍了一类正样本感知的挖掘方法，它们使用正相关分数作为有效的负样本移除锚点，从而加快训练速度并提高检索模型的准确性。我们对硬负样本挖掘方法进行了消融研究，探索了不同的教师模型和基础模型配置。此外，我们还展示了我们提出的挖掘方法在NV-Retriever-v1模型中的有效性，该模型在MTEB Retrieval（BEIR）基准上的得分为60.9，并且在2024年7月发布到MTEB Retrieval时排在第一位。