LLM2D

摘要

arXiv:2504.03598v1 Announce Type: cross 摘要：现有的信息检索系统在目标文档的语言与用户查询语言匹配时表现出色。然而，实际的检索系统往往需要隐式地推断文档的相关性。例如，在检索技术文本或表格时，它们与用户查询的相关性可能通过特定的专业术语或结构暗示，而不仅仅是内容中明确表达。大型语言模型（LLMs）在通过利用其推理能力识别这种暗示的相关性方面具有巨大的潜力。然而，当前基于LLM的检索增强受到高延迟和计算成本的阻碍，因为LLM通常需要在线为每个查询重新计算查询文档的相关性。为了解决这一问题，我们引入了EnrichIndex，这是一种检索方法，它使用LLM在离线时通过一次处理检索语料库中的所有文档来构建语义增强的检索索引。此外，语义增强的索引可以补充现有的在线检索方法，提升LLM重新排名器的性能。我们在涉及段落和表格的五项检索任务上评估了EnrichIndex，并发现它在与强在线LLM检索系统相比时表现出色，在召回@10上平均提高了11.7个点，在NDCG@10上提高了10.6个点。从LLM的在线调用来看，它处理的词元数量减少了293.3倍，极大地减少了在线延迟和成本。总体而言，EnrichIndex通过利用LLM强大的推理能力，是一种有效的方法来构建更好的离线检索索引。