LLM2D
动态语料库中生成式检索的实用性探索
Exploring the Practicality of Generative Retrieval on Dynamic Corpora
作者: Chaeeun Kim, Soyoung Yoon, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon Seo
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2305.18952v4

摘要

信息检索(IR)性能的基准测试通常是在固定文档集(静态语料库)上进行的。然而,在现实场景中,这种情况很少发生,待检索的文档会不断更新和添加。本文重点研究生成式检索(GR),它将自回归语言模型应用于 IR 问题,并探索其在动态场景下的适应性和鲁棒性。我们还对计算和内存效率进行了广泛的评估,这是现实世界中部署处理大量不断变化的文档集合的 IR 系统的关键因素。我们在 StreamingQA 基准上的结果表明,与检索系统中常用的双编码器(DE)相比,GR 对不断变化的知识更具适应性(4% - 11%),在学习具有时间信息的知识方面更具鲁棒性,并且在推理 FLOPs(x 2)、索引时间(x 6)和存储空间(x 4)方面更高效。我们的论文强调了 GR 在未来用于动态环境中实际 IR 系统的潜力。