摘要
arXiv:2504.03648v1 类型: cross
摘要: 我们引入了AIBrix,这是一个云原生、开源框架,旨在优化和简化在云环境中大规模LLM部署。与传统的云原生堆栈不同,AIBrix遵循一种协同设计理念,确保每一层基础设施都能无缝集成到类似于vLLM的推理引擎中。AIBrix引入了几项关键技术创新以降低推理成本并提升性能,包括用于动态适配器调度的高密度LoRA管理、针对特定LLM的自动扩容器以及前缀感知和负载感知的路由。为了进一步提高效率,AIBrix整合了一个分布式KV缓存,促进了节点间令牌的重用,从而将吞吐量提高50%,并将推理延迟减少70%。AIBrix还支持统一AI运行时,简化模型管理同时保持对不同供应商引擎的兼容性。对于大规模多节点推理,AIBrix采用混合编排——利用Kubernetes进行粗粒度调度,并利用Ray进行细粒度执行——以平衡效率和灵活性。此外,基于SLO的GPU优化器动态调整资源分配,优化异构服务,以最大化成本效率同时保持服务质量。最后,AIBrix通过AI加速器诊断工具增强了系统可靠性,实现了自动化故障检测和模拟测试,以提高故障耐受性。AIBrix可在https://github.com/vllm-project/aibrix获取。