LLM2D

摘要

arXiv:2504.00277v1 宣告类型: 新闻摘要: 随着快速增长的AI计算需求加快了对新硬件安装和维护的需求，本文通过战略性地考虑各种资源和位置来平衡运行效率与容错性，探讨了数据中心资源管理的优化方案。传统混合整数规划（MIP）方法往往难以实现扩展，而启发式方法可能会导致显著的非优化结果。为解决这些问题，本文提出了一种新颖的两层优化框架，使用高层次的深度强化学习（DRL）模型指导低层次的基于梯度的启发式方法进行局部搜索。高层次的DRL代理采用领导者奖励来优化机架类型顺序，而低层次的启发式方法高效地将机架映射到位置，最小化移动次数并确保容错资源分布。这种方法可扩展到超过10万个位置和100种机架类型。我们的方法在目标值上平均比基于梯度的启发式方法高7%，比MIP求解器高30%以上。该方法在目标值上实现了100%的成功率，而MIP求解器在20分钟限制内仅为97.5%（即成功率为100%的四倍多），且仅需2分钟，而MIP求解器则需要1630分钟（即大约4个数量级的改进）。与MIP求解器在时间限制下和高惩罚下的表现波动不同，我们的算法始终能够提供稳定高效的成果，这对于大规模数据中心管理至关重要。