LLM2D
TrainMover: 一个抗中断且可靠的机器学习训练运行时
TrainMover: An Interruption-Resilient and Reliable ML Training Runtime
作者: ChonLam Lao, Minlan Yu, Aditya Akella, Jiamin Cao, Yu Guan, Pengcheng Zhang, Zhilong Zheng, Yichi Xu, Ennan Zhai, Dennis Cai, Jiaqi Gao
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2412.12636v2

摘要

arXiv:2412.12636v2 宣告类型: replace-cross 摘要:大规模机器学习训练任务经常因硬件和软件异常、故障和管理事件而中断。现有的解决方案如检查点或运行时重新配置会遭受长时间宕机、性能下降或训练策略不理想的改变。我们提出了TrainMover,这是一种具备韧性的运行时,它利用备用机器来处理中断,并实现最小的宕机时间和零内存开销。为了实现这些目标,TrainMover引入了两种关键技术:基于两阶段和Delta的通信组设置以及无通信的沙箱化阴影迭代。我们的评估显示,在迁移过程中,TrainMover可以保持所有评价模型的二级级别的低宕机率,同时在定期的10分钟重新平衡期间保持99%的训练效率。我们还展示了TrainMover在处理各种中断方面的有效性。