摘要
密集检索已成为在开放域 NLP 任务中获取相关上下文或世界知识的一种突出方法。当我们在推理时对检索语料库使用学习到的密集检索器时,一个经常被忽视的设计选择是语料库被索引的检索单元,例如文档、段落或句子。我们发现检索单元的选择会显著影响检索和下游任务的性能。与使用段落或句子的典型方法不同,我们引入了用于密集检索的新型检索单元,命题。命题被定义为文本中的原子表达式,每个表达式都封装了一个独特的琐碎事实,并以简洁、自包含的自然语言格式呈现。我们对不同的检索粒度进行了实证比较。我们的实验表明,通过细粒度单元(如命题)对语料库进行索引在检索任务中明显优于段落级单元。此外,使用细粒度检索单元为检索增强语言模型构建提示,在特定计算预算下提高了下游 QA 任务的性能。