摘要
arXiv:2504.05216v2 宣告类型: replace-cross
摘要:密集检索是信息检索(IR)中的一个关键任务,并且是重新排序等下游任务的基础。最近,大规模语言模型(LLMs)展示了令人信服的语义理解能力,吸引了研究密集检索的研究人员的兴趣。LLMs 作为解码器类型的生成模型,在语言生成方面表现出色,但由于缺乏对后续标记的关注,无法很好地建模全局信息。受到查询似然(Query Likelihood, QL)模型的经典基于词的语言建模方法在IR中的启发,我们尝试通过QL最大化充分利用LLMs的生成能力。然而,我们并不是通过QL估计进行文档排名,而是引入了一个辅助任务,即QL最大化,以获得更好的对比学习区分检索者的基础。我们将我们的模型命名为LLM-QL。为了在QL建模过程中将全局文档语义压缩为一个向量,LLM-QL具有两个主要组成部分,注意力停止(AS)和输入污染(IC)。AS 在文档的结束标记之前阻止预测标记对前一个标记的注意。IC 在预测过程中遮掩输入文档的一部分标记。在MSMARCO上的实验表明,LLM-QL可以显著优于其他基于LLM的检索器,并且使用LLM-QL估计的QL进行排名 far 超过了基于词的QL。