摘要
arXiv:2412.12636v2 宣告类型: replace-cross
摘要:大规模机器学习训练任务经常因硬件和软件异常、故障和管理事件而中断。现有的解决方案如检查点或运行时重新配置会遭受长时间宕机、性能下降或训练策略不理想的改变。我们提出了TrainMover,这是一种具备韧性的运行时,它利用备用机器来处理中断,并实现最小的宕机时间和零内存开销。为了实现这些目标,TrainMover引入了两种关键技术:基于两阶段和Delta的通信组设置以及无通信的沙箱化阴影迭代。我们的评估显示,在迁移过程中,TrainMover可以保持所有评价模型的二级级别的低宕机率,同时在定期的10分钟重新平衡期间保持99%的训练效率。我们还展示了TrainMover在处理各种中断方面的有效性。