摘要
arXiv:2504.10326v1 公告类型: 新
摘要: AlayaDB 是一个专为 AlayaDB AI 中的大语言模型 (LLMs) 提供高效且有效的长上下文推理而原生构建的向量数据库系统。具体来说,它将键值缓存和注意力计算与 LLM 推理系统分离,并将它们封装为一个新型的向量数据库系统。对于模型即服务提供商 (MaaS),与现有的替代方案(例如,键值缓存拆分、基于检索的稀疏注意力)相比,AlayaDB 使用更少的硬件资源,并且在具有不同服务级别目标 (SLO) 的各种工作负载中提供更高的生成质量。AlayaDB 的核心在于它将 LLM 推理中的注意力计算和缓存管理抽象为一个查询处理过程,并通过本地查询优化器优化性能。在这项工作中,我们通过 (i) 来自我们的行业合作伙伴的三个应用场景,以及 (ii) 对大语言模型推理基准的广泛实验结果,展示了 AlayaDB 的有效性。