摘要
arXiv:2502.02788v1 标题类型:交叉
摘要:可微搜索索引(DSI)是一种最近的信息检索范式,它使用基于Transformer的神经网络架构作为文档索引,以简化检索过程。可微索引有许多优势,可以方便地对索引进行修改、更新或扩展。在本文中,我们探索了利用Maximal Marginal Relevance(最大边际相关性,MMR)启发式方法训练DSI系统时,在训练DSI系统中平衡相关性和新颖信息量(多样性)的方法,并展示了我们方法相对于朴素的DSI训练方法的好处。我们使用我们的方法在NQ320K和MSMARCO数据集上的相关性和多样性衡量方面进行了定量和定性的评估,与朴素的DSI训练方法进行了比较。通过我们的方法,可以在不显著影响相关性的前提下实现多样性。由于我们在训练DSI时引入了多样性,因此训练模型已学会在保持相关性的同时进行多样化检索。这消除了通常使用MMR在召回集中引入多样性的后处理步骤的需要。我们的方法对于相关性和多样性都很重要的信息检索问题(如子主题检索)非常有用。我们的工作还可以轻松扩展到增量DSI设置,这将使在检索多样化召回集的同时对索引进行快速更新成为可能。