LLM2D

摘要

arXiv:2412.12636v2 宣告类型: replace-cross 摘要：大规模机器学习训练任务经常因硬件和软件异常、故障和管理事件而中断。现有的解决方案如检查点或运行时重新配置会遭受长时间宕机、性能下降或训练策略不理想的改变。我们提出了TrainMover，这是一种具备韧性的运行时，它利用备用机器来处理中断，并实现最小的宕机时间和零内存开销。为了实现这些目标，TrainMover引入了两种关键技术：基于两阶段和Delta的通信组设置以及无通信的沙箱化阴影迭代。我们的评估显示，在迁移过程中，TrainMover可以保持所有评价模型的二级级别的低宕机率，同时在定期的10分钟重新平衡期间保持99%的训练效率。我们还展示了TrainMover在处理各种中断方面的有效性。