LLM2D
大规模异构数据中心的rack位置优化
Rack Position Optimization in Large-Scale Heterogeneous Data Centers
作者: Chang-Lin Chen, Jiayu Chen, Tian Lan, Zhaoxia Zhao, Hongbo Dong, Vaneet Aggarwal
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00277v1

摘要

arXiv:2504.00277v1 宣告类型: 新闻 摘要: 随着快速增长的AI计算需求加快了对新硬件安装和维护的需求,本文通过战略性地考虑各种资源和位置来平衡运行效率与容错性,探讨了数据中心资源管理的优化方案。传统混合整数规划(MIP)方法往往难以实现扩展,而启发式方法可能会导致显著的非优化结果。为解决这些问题,本文提出了一种新颖的两层优化框架,使用高层次的深度强化学习(DRL)模型指导低层次的基于梯度的启发式方法进行局部搜索。高层次的DRL代理采用领导者奖励来优化机架类型顺序,而低层次的启发式方法高效地将机架映射到位置,最小化移动次数并确保容错资源分布。这种方法可扩展到超过10万个位置和100种机架类型。我们的方法在目标值上平均比基于梯度的启发式方法高7%,比MIP求解器高30%以上。该方法在目标值上实现了100%的成功率,而MIP求解器在20分钟限制内仅为97.5%(即成功率为100%的四倍多),且仅需2分钟,而MIP求解器则需要1630分钟(即大约4个数量级的改进)。与MIP求解器在时间限制下 和高惩罚下的表现波动不同,我们的算法始终能够提供稳定高效的成果,这对于大规模数据中心管理至关重要。