LLM2D
MicroNN: 一种嵌入式磁盘驻留可更新向量数据库
MicroNN: An On-device Disk-resident Updatable Vector Database
作者: Jeffrey Pound, Floris Chabert, Arjun Bhushan, Ankur Goswami, Anil Pacaci, Shihabur Rahman Chowdhury
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05573v1

摘要

arXiv:2504.05573v1 交叉类型: cross 摘要:密集向量集合的最近邻搜索在信息检索、检索增强生成(RAG)和内容排名等方面具有重要应用。对大型向量集合进行高效搜索是已经研究了很长时间的问题,有许多现有的方法和开源实现。然而,大多数最先进的系统通常针对使用大量内存的大服务器进行场景,固定且不可更新的向量集合,以及与其他搜索条件隔离的最近邻搜索。本文提出了Micro 最近邻(MicroNN),这是一种针对低资源环境下的可扩展相似性搜索设计的嵌入式最近邻向量搜索引擎。MicroNN解决了包含更新和结合最近邻搜索与结构化属性过滤的混合搜索查询的真实工作负载中,在设备上进行向量搜索的问题。在这种情况下,高内存约束要求使用内存高效的索引结构和算法,并且需要支持连续插入和删除。MicroNN 是一个可嵌入的库,可以在最少资源的情况下扩展到大型向量集合。MicroNN 现已投入生产,并在设备上支持广泛的向量搜索用例。MicroNN 使用大约 10 MB 的内存,在公开可用的百万级向量基准测试中检索到召回率为 90% 的前 100 个最近邻,耗时不到 7 毫秒。