LLM2D
AIBrix: 向规模可扩展、低成本的大语言模型推理基础设施方向努力
AIBrix: Towards Scalable, Cost-Effective Large Language Model Inference Infrastructure
作者: The AIBrix Team, Jiaxin Shan, Varun Gupta, Le Xu, Haiyang Shi, Jingyuan Zhang, Ning Wang, Linhui Xu, Rong Kang, Tongping Liu, Yifei Zhang, Yiqing Zhu, Shuowei Jin, Gangmuk Lim, Binbin Chen, Zuzhi Chen, Xiao Liu, Xin Chen, Kante Yin, Chak-Pong Chung, Chenyu Jiang, Yicheng Lu, Jianjun Chen, Caixue Lin, Wu Xiang, Rui Shi, Liguang Xie
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03648v1

摘要

arXiv:2504.03648v1 类型: cross 摘要: 我们引入了AIBrix,这是一个云原生、开源框架,旨在优化和简化在云环境中大规模LLM部署。与传统的云原生堆栈不同,AIBrix遵循一种协同设计理念,确保每一层基础设施都能无缝集成到类似于vLLM的推理引擎中。AIBrix引入了几项关键技术创新以降低推理成本并提升性能,包括用于动态适配器调度的高密度LoRA管理、针对特定LLM的自动扩容器以及前缀感知和负载感知的路由。为了进一步提高效率,AIBrix整合了一个分布式KV缓存,促进了节点间令牌的重用,从而将吞吐量提高50%,并将推理延迟减少70%。AIBrix还支持统一AI运行时,简化模型管理同时保持对不同供应商引擎的兼容性。对于大规模多节点推理,AIBrix采用混合编排——利用Kubernetes进行粗粒度调度,并利用Ray进行细粒度执行——以平衡效率和灵活性。此外,基于SLO的GPU优化器动态调整资源分配,优化异构服务,以最大化成本效率同时保持服务质量。最后,AIBrix通过AI加速器诊断工具增强了系统可靠性,实现了自动化故障检测和模拟测试,以提高故障耐受性。AIBrix可在https://github.com/vllm-project/aibrix获取。