摘要
arXiv:2504.03887v1 宣告类型: cross
摘要:深度学习(DL)的优势对 GPU 资源造成巨大压力,特别是在 GPU 集群中,内存不足错误(OOM)是模型训练和高效资源利用的主要障碍。传统的 OOM 估算技术依赖于静态图形分析或直接的 GPU 内存分析,存在固有的限制:静态分析往往无法捕捉模型动态,而基于 GPU 的分析在稀缺的 GPU 资源之间加剧了竞争。为克服这些限制,VeritasEst 出现了。它是一个创新的、完全基于 CPU 的分析工具,能够在不访问目标 GPU 的情况下准确预测 DL 训练任务所需的峰值 GPU 内存。VeritasEst 的这一“离线”预测能力是其核心优势,可以在任务调度之前获得准确的内存足迹信息,从而有效防止 OOM 并优化 GPU 分配。其性能通过在卷积神经网络(CNN)模型上进行数千次实验验证:与基线 GPU 内存估算器相比,VeritasEst 将相对误差降低了 84%,并将估计算法失败的概率降低了 73%。VeritasEst 代表了在资源受限环境中高效且可预测的 DL 训练的关键一步。