LLM2D

摘要

arXiv:2504.10326v1 公告类型: 新摘要: AlayaDB 是一个专为 AlayaDB AI 中的大语言模型 (LLMs) 提供高效且有效的长上下文推理而原生构建的向量数据库系统。具体来说，它将键值缓存和注意力计算与 LLM 推理系统分离，并将它们封装为一个新型的向量数据库系统。对于模型即服务提供商 (MaaS)，与现有的替代方案（例如，键值缓存拆分、基于检索的稀疏注意力）相比，AlayaDB 使用更少的硬件资源，并且在具有不同服务级别目标 (SLO) 的各种工作负载中提供更高的生成质量。AlayaDB 的核心在于它将 LLM 推理中的注意力计算和缓存管理抽象为一个查询处理过程，并通过本地查询优化器优化性能。在这项工作中，我们通过 (i) 来自我们的行业合作伙伴的三个应用场景，以及 (ii) 对大语言模型推理基准的广泛实验结果，展示了 AlayaDB 的有效性。