LLM2D

摘要

密集文档嵌入是神经检索的核心。主流范式是通过直接在单个文档上运行编码器来训练和构建嵌入。在这项工作中，我们认为这些嵌入虽然有效，但对于检索的特定用例来说，它们是隐式地脱离上下文的，并且上下文化的文档嵌入应该同时考虑文档和上下文中的相邻文档——类似于上下文化的词嵌入。我们提出了两种互补的上下文化文档嵌入方法：第一种方法是使用一种替代的对比学习目标，将文档邻居明确地纳入批内上下文损失；第二种方法是使用一种新的上下文架构，将邻居文档信息明确地编码到编码后的表示中。结果表明，这两种方法在多种设置中都比双编码器取得了更好的性能，尤其是在域外情况下差异明显。我们在 MTEB 基准测试中取得了最先进的结果，没有使用硬负样本挖掘、得分蒸馏、特定于数据集的指令、GPU 内示例共享或极大的批次大小。我们的方法可以应用于改进任何对比学习数据集和任何双编码器的性能。