摘要
arXiv:2504.05216v1 通知类型: 交叉
摘要: 密集检索是信息检索(IR)中的一项关键任务,并且是重排序等下游任务的基础。最近,大型语言模型(LLMs)展示了令人信服的语义理解能力,吸引了那些研究密集检索的研究人员的兴趣。LLMs 作为一种解码器风格的生成模型,擅长语言生成,但在建模全局信息方面存在不足,因为它们无法关注后续的 tokens。受经典基于单词的语言建模方法(即查询似然模型 QL)在信息检索中的启发,我们希望通过 QL 最大化充分利用 LLMS 的生成能力。然而,我们不是用 QL 估计来对文档进行排序,而是引入一个辅助任务即 QL 最大化,以便提供一个更好的对比学习区别检索器的骨干。我们将我们的模型命名为 LLM-QL。为了在 QL 模型中将全局文档语义压缩到一个向量,LLM-QL 有两个主要组成部分:注意力停止(AS)和输入破坏(IC)。AS 在生成 token 的注意力停止在文档结束 token 之前,不会停留在前一个 token 上。IC 在预测过程中遮盖输入文档中一部分 token。在 MSMARCO 上的实验表明,LLM-QL 可以显著优于其他基于 LLM 的检索器,使用 LLM-QL 估计的 QL 进行排序的效果也显著优于基于单词的 QL。