LLM2D
探索生成式检索在动态语料库中的实用性
Exploring the Practicality of Generative Retrieval on Dynamic Corpora
作者: Chaeeun Kim, Soyoung Yoon, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon Seo
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2305.18952v5

摘要

信息检索 (IR) 的性能评估通常使用固定文档集 (静态语料库) 进行。然而,在现实场景中,这种情况很少出现,需要检索的文档会不断更新和添加。本文重点研究生成式检索 (GR),它将自回归语言模型应用于 IR 问题,并探索其在动态场景中的适应性和鲁棒性。我们还对计算和内存效率进行了广泛的评估,这是现实世界中部署处理庞大且不断变化的文档集合的 IR 系统的关键因素。我们在 StreamingQA 基准上的结果表明,与检索系统中常用的双编码器 (DE) 相比,GR 对不断变化的知识更具适应性 (4-11%),在学习具有时间信息的知识方面更稳健,并且在推理 FLOPs (x2)、索引时间 (x6) 和存储占用 (x4) 方面更高效。我们的论文强调了 GR 在未来动态环境中用于实际 IR 系统的潜力。