LLM2D
ReTreever:基于树结构的粗细粒度表示检索
ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval
作者: Shubham Gupta, Zichao Li, Tianyi Chen, Cem Subakan, Siva Reddy, Perouz Taslakian, Valentina Zantedeschi
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.07971v1

摘要

arXiv:2502.07971v1 类别: cross 摘要: 文档检索是问答系统的核心组件,因为它使答案生成能够基于新的和大规模的语料库进行条件设定。虽然有效,但将文档编码为高维嵌入以进行相似度搜索的标准做法会导致大量的内存和计算开销,并且也让检查系统的内部工作变得困难。在本文中,我们提出了一种基于树的方法来组织和表示参考文档,该方法可以在成本和实用性之间提供灵活性,并简化语料库内容和检索操作的检查。我们的方法称为ReTreever,它在一个二叉树的每个内部节点上联合学习一个路由函数,使得查询和参考文档被分配到相似的树分支,从而直接优化检索性能。我们的评估显示,ReTreever通常能够保持完整的表现力。其层次结构进一步提供了强大的粗粒度表示,通过间接学习有意义的语义分组来增强透明度。在层次检索方法中,ReTreever在最低延迟下实现了最佳的检索准确性,证明了这类技术在实际应用中是可行的。