LLM2D

摘要

密集检索系统通常用于信息检索 (IR)。它们依赖于通过编码器学习文本表示，并且通常需要通过标记数据进行监督建模，而标记数据可能成本高昂或根本无法获得。在本研究中，我们介绍了一种新颖的无监督文本表示学习技术，该技术通过在双编码器检索框架下对预训练的编码器-解码器大型语言模型 (LLM) 进行指令微调。我们证明了语料库表示可以通过基于 Rao-Blackwell 定理的指令微调 LLM 生成的相关合成查询的表示来增强。此外，我们通过自我指令微调有效地对齐查询和语料库文本表示。具体来说，我们首先提示一个开放式预训练 LLM 遵循定义的指令（即问题生成和关键词摘要）来生成合成查询。接下来，我们使用定义的指令和通过质量检查的生成查询对预训练的 LLM 进行微调。最后，我们使用指令微调的 LLM 为每个语料库生成合成查询，并通过对合成查询和原始语料库嵌入进行加权平均来表示每个语料库。我们在三个英语和一个德语检索数据集上评估了我们提出的方法，这些数据集在低资源设置下测量 NDCG@10、MRR@100、Recall@100。我们在所有指标上显着提高了平均零样本检索性能，将开放式 FLAN-T5 模型变体绝对提高了 [3.34%，3.50%]，并且在 NDCG@10 上超过了三个具有竞争力的密集检索器（即 mDPR、T-Systems、mBART-Large），模型大小至少小 38%，绝对提高了 1.96%，4.62%，9.52%。