LLM2D

摘要

arXiv:2504.05216v2 宣告类型: replace-cross 摘要：密集检索是信息检索（IR）中的一个关键任务，并且是重新排序等下游任务的基础。最近，大规模语言模型（LLMs）展示了令人信服的语义理解能力，吸引了研究密集检索的研究人员的兴趣。LLMs 作为解码器类型的生成模型，在语言生成方面表现出色，但由于缺乏对后续标记的关注，无法很好地建模全局信息。受到查询似然（Query Likelihood, QL）模型的经典基于词的语言建模方法在IR中的启发，我们尝试通过QL最大化充分利用LLMs的生成能力。然而，我们并不是通过QL估计进行文档排名，而是引入了一个辅助任务，即QL最大化，以获得更好的对比学习区分检索者的基础。我们将我们的模型命名为LLM-QL。为了在QL建模过程中将全局文档语义压缩为一个向量，LLM-QL具有两个主要组成部分，注意力停止（AS）和输入污染（IC）。AS 在文档的结束标记之前阻止预测标记对前一个标记的注意。IC 在预测过程中遮掩输入文档的一部分标记。在MSMARCO上的实验表明，LLM-QL可以显著优于其他基于LLM的检索器，并且使用LLM-QL估计的QL进行排名 far 超过了基于词的QL。