LLM2D

摘要

arXiv:2504.03648v1 类型: cross 摘要: 我们引入了AIBrix，这是一个云原生、开源框架，旨在优化和简化在云环境中大规模LLM部署。与传统的云原生堆栈不同，AIBrix遵循一种协同设计理念，确保每一层基础设施都能无缝集成到类似于vLLM的推理引擎中。AIBrix引入了几项关键技术创新以降低推理成本并提升性能，包括用于动态适配器调度的高密度LoRA管理、针对特定LLM的自动扩容器以及前缀感知和负载感知的路由。为了进一步提高效率，AIBrix整合了一个分布式KV缓存，促进了节点间令牌的重用，从而将吞吐量提高50%，并将推理延迟减少70%。AIBrix还支持统一AI运行时，简化模型管理同时保持对不同供应商引擎的兼容性。对于大规模多节点推理，AIBrix采用混合编排——利用Kubernetes进行粗粒度调度，并利用Ray进行细粒度执行——以平衡效率和灵活性。此外，基于SLO的GPU优化器动态调整资源分配，优化异构服务，以最大化成本效率同时保持服务质量。最后，AIBrix通过AI加速器诊断工具增强了系统可靠性，实现了自动化故障检测和模拟测试，以提高故障耐受性。AIBrix可在https://github.com/vllm-project/aibrix获取。