LLM2D
OVERLORD:多源大型基础模型训练的DataLoader终极扩展性
OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training
作者: Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09844v1

摘要

arXiv:2504.09844v1 类型: cross 摘要:现代用于训练大型基础模型(LFMs)的框架在数据并行范式中使用数据加载器。虽然这种设计提供了实现上的简便性,但它引入了两个根本性挑战。首先,由于注意力操作的计算复杂度呈二次阶,数据并行秩中的样本分布不均匀导致加载器之间的负载显著不平衡,这降低了训练效率。这种范式还阻碍了在不同数据集上实施数据混合算法(例如,分级学习)。其次,为了获得广泛的能力,LFMs的训练从各种来源获取数据,每个来源具有不同的文件访问状态。将大量数据集放置在加载器实例中容易超出本地pod的内存容量。此外,具有更高转换延迟的重度来源需要更大的工人池,这进一步加剧了内存消耗。 我们提出了OVERLORD,这是一种工业级别的分布式数据加载架构,具有三项创新:(1) 集中和声明式的数据平面,便于弹性数据编排策略,如长短期上下文、多模态和分级学习;(2) 通过特定角色的演员进行拆分的多源头预处理,利用自动扩展的源加载器以适应异构和演变的源预处理成本;(3) 带有差异检查点的阴影加载器,以实现不间断故障恢复。在扩展到数千个GPU的生产集群上部署,OVERLORD实现了:(1) 端到端训练吞吐量提高了4.5倍,(2) 最小3.6倍的CPU内存使用量减少,进一步改进将在后续实验中添加。