LLM2D

摘要

arXiv:2504.05216v1 通知类型: 交叉摘要: 密集检索是信息检索（IR）中的一项关键任务，并且是重排序等下游任务的基础。最近，大型语言模型（LLMs）展示了令人信服的语义理解能力，吸引了那些研究密集检索的研究人员的兴趣。LLMs 作为一种解码器风格的生成模型，擅长语言生成，但在建模全局信息方面存在不足，因为它们无法关注后续的 tokens。受经典基于单词的语言建模方法（即查询似然模型 QL）在信息检索中的启发，我们希望通过 QL 最大化充分利用 LLMS 的生成能力。然而，我们不是用 QL 估计来对文档进行排序，而是引入一个辅助任务即 QL 最大化，以便提供一个更好的对比学习区别检索器的骨干。我们将我们的模型命名为 LLM-QL。为了在 QL 模型中将全局文档语义压缩到一个向量，LLM-QL 有两个主要组成部分：注意力停止（AS）和输入破坏（IC）。AS 在生成 token 的注意力停止在文档结束 token 之前，不会停留在前一个 token 上。IC 在预测过程中遮盖输入文档中一部分 token。在 MSMARCO 上的实验表明，LLM-QL 可以显著优于其他基于 LLM 的检索器，使用 LLM-QL 估计的 QL 进行排序的效果也显著优于基于单词的 QL。