LLM2D
基于云的AI推理服务中的可扩展性优化:实时负载均衡和自动化扩展策略
Scalability Optimization in Cloud-Based AI Inference Services: Strategies for Real-Time Load Balancing and Automated Scaling
作者: Yihong Jin, Ze Yang
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15296v1

摘要

arXiv:2504.15296v1 宣告类型: cross 摘要: 云中快速扩展的AI推理服务需要一个稳健的扩展解决方案来管理动态工作负载并保持高性能。本研究提出了一种全面的云AI推理服务扩展优化框架,重点关注实时负载均衡和自动扩展策略。所提出的模型是一种混合方法,结合了强化学习进行自适应负载分布和深度神经网络进行准确的需求预测。这一多层次的方法使系统能够预测工作负载波动,并主动调整资源,确保资源利用率最大化并最小化延迟。此外,模型中包含去中心化的决策过程,以增强容错能力并减少扩展操作的响应时间。实验结果表明,所提出的模型通过提高负载均衡效率35% 和减少响应延迟28% 来显著优化效果,优于传统扩展解决方案。