摘要
arXiv:2503.19868v1 Announce Type: cross
摘要:生成检索是一种新兴的信息检索方法,它根据查询生成目标数据的标识符(ID),为传统基于嵌入的检索方法提供了一种高效的替代方案。然而,现有的模型是任务特定的,在性能上无法与基于嵌入的检索方法匹敌。本文提出了一种名为GENIUS的通用生成检索框架,支持跨多种模态和领域的多种任务。其核心在于引入模态解耦的语义量化,将多模态数据转换为既编码模态又编码语义的离散ID。此外,为了增强泛化能力,我们提出了一种查询增强方法,该方法在查询与其目标之间进行插值,使GENIUS能够适应各种查询形式。在M-BEIR基准上,它明显超过了之前的生成方法。与基于嵌入的检索方法不同,GENIUS在数据库规模变化时始终能保持较高的检索速度,并且在多个基准上的性能具有竞争力。通过额外的重排序,GENIUS经常能够达到与基于嵌入的方法相近的结果,同时保持效率。