LLM2D

摘要

arXiv:2407.20143v4 宣告类型: 替换摘要: 在大型基础模型（LFMs）的开发过程中，为了在各种故障或GPU资源和并行配置变化时恢复训练，检查点机制（用于保存训练状态）至关重要。此外，保存的检查点会被分配到评估任务或在不同的训练阶段之间传输（例如，从预训练到后训练）。所有这些场景都需要将分布式检查点从一种并行模式转换为另一种模式。在生产环境中，不同的LFMs会根据模型大小和训练规模，使用不同的框架和存储后端进行训练。因此，需要高性能的检查点系统，以便在整个LFM开发生命周期中高效地管理检查点。我们引入了ByteCheckpoint，这是一种用于大规模LFM训练的工业级检查点系统。ByteCheckpoint特点包括：一种与并行模式无关的检查点表示，使得加载时的检查点重新分配更加高效；通用的检查点保存/加载工作流，可以适应多种训练框架并支持不同的存储后端；端到端优化，以确保高I/O效率和可扩展性；一系列监控工具，便于大规模性能分析和瓶颈检测。与现有的开源检查点系统[52, 58]相比，ByteCheckpoint显著减少了运行时检查点停滞时间，实现了平均54.20倍的减少。在保存和加载时间方面，ByteCheckpoint分别实现了高达9.96倍和8.80倍的改进。