LLM2D

摘要

密集检索已成为在开放域 NLP 任务中获取相关上下文或世界知识的一种突出方法。当我们在推理时对检索语料库使用学习到的密集检索器时，一个经常被忽视的设计选择是语料库被索引的检索单元，例如文档、段落或句子。我们发现检索单元的选择会显著影响检索和下游任务的性能。与使用段落或句子的典型方法不同，我们引入了用于密集检索的新型检索单元，命题。命题被定义为文本中的原子表达式，每个表达式都封装了一个独特的琐碎事实，并以简洁、自包含的自然语言格式呈现。我们对不同的检索粒度进行了实证比较。我们的实验表明，通过细粒度单元（如命题）对语料库进行索引在检索任务中明显优于段落级单元。此外，使用细粒度检索单元为检索增强语言模型构建提示，在特定计算预算下提高了下游 QA 任务的性能。