LLM2D

摘要

密集文档嵌入是神经检索的核心。主流方法是通过直接在单个文档上运行编码器来训练和构建嵌入。在这项工作中，我们认为这些嵌入虽然有效，但对于检索的目标用例来说隐式地是脱离上下文的，而一个上下文化的文档嵌入应该同时考虑文档和上下文中的相邻文档——类似于上下文化的词嵌入。我们提出了两种互补的上下文化文档嵌入方法：第一，一种替代的对比学习目标，它将文档邻居明确地纳入批内上下文损失；第二，一种新的上下文架构，它将邻居文档信息明确地编码到编码的表示中。结果表明，这两种方法在几种情况下都比双编码器取得了更好的性能，尤其是在域外的情况下差异明显。我们在 MTEB 基准测试中取得了最先进的结果，没有硬负样本挖掘、分数蒸馏、数据集特定指令、GPU 内示例共享或极大的批次大小。我们的方法可以应用于提高任何对比学习数据集和任何双编码器的性能。