LLM2D
AlayaDB:高效有效长上下文LLM推理的数据基础
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
作者: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10326v1

摘要

arXiv:2504.10326v1 公告类型: 新 摘要: AlayaDB 是一个专为 AlayaDB AI 中的大语言模型 (LLMs) 提供高效且有效的长上下文推理而原生构建的向量数据库系统。具体来说,它将键值缓存和注意力计算与 LLM 推理系统分离,并将它们封装为一个新型的向量数据库系统。对于模型即服务提供商 (MaaS),与现有的替代方案(例如,键值缓存拆分、基于检索的稀疏注意力)相比,AlayaDB 使用更少的硬件资源,并且在具有不同服务级别目标 (SLO) 的各种工作负载中提供更高的生成质量。AlayaDB 的核心在于它将 LLM 推理中的注意力计算和缓存管理抽象为一个查询处理过程,并通过本地查询优化器优化性能。在这项工作中,我们通过 (i) 来自我们的行业合作伙伴的三个应用场景,以及 (ii) 对大语言模型推理基准的广泛实验结果,展示了 AlayaDB 的有效性。