摘要
arXiv:2504.09844v1 类型: cross
摘要:现代用于训练大型基础模型(LFMs)的框架在数据并行范式中使用数据加载器。虽然这种设计提供了实现上的简便性,但它引入了两个根本性挑战。首先,由于注意力操作的计算复杂度呈二次阶,数据并行秩中的样本分布不均匀导致加载器之间的负载显著不平衡,这降低了训练效率。这种范式还阻碍了在不同数据集上实施数据混合算法(例如,分级学习)。其次,为了获得广泛的能力,LFMs的训练从各种来源获取数据,每个来源具有不同的文件访问状态。将大量数据集放置在加载器实例中容易超出本地pod的内存容量。此外,具有更高转换延迟的重度来源需要更大的工人池,这进一步加剧了内存消耗。
我们提出了OVERLORD,这是一种工业级别的分布式数据加载架构,具有三项创新:(1) 集中和声明式的数据平面,便于弹性数据编排策略,如长短期上下文、多模态和分级学习;(2) 通过特定角色的演员进行拆分的多源头预处理,利用自动扩展的源加载器以适应异构和演变的源预处理成本;(3) 带有差异检查点的阴影加载器,以实现不间断故障恢复。在扩展到数千个GPU的生产集群上部署,OVERLORD实现了:(1) 端到端训练吞吐量提高了4.5倍,(2) 最小3.6倍的CPU内存使用量减少,进一步改进将在后续实验中添加。