LLM2D

摘要

arXiv:2504.09844v1 类型: cross 摘要：现代用于训练大型基础模型（LFMs）的框架在数据并行范式中使用数据加载器。虽然这种设计提供了实现上的简便性，但它引入了两个根本性挑战。首先，由于注意力操作的计算复杂度呈二次阶，数据并行秩中的样本分布不均匀导致加载器之间的负载显著不平衡，这降低了训练效率。这种范式还阻碍了在不同数据集上实施数据混合算法（例如，分级学习）。其次，为了获得广泛的能力，LFMs的训练从各种来源获取数据，每个来源具有不同的文件访问状态。将大量数据集放置在加载器实例中容易超出本地pod的内存容量。此外，具有更高转换延迟的重度来源需要更大的工人池，这进一步加剧了内存消耗。我们提出了OVERLORD，这是一种工业级别的分布式数据加载架构，具有三项创新：(1) 集中和声明式的数据平面，便于弹性数据编排策略，如长短期上下文、多模态和分级学习；(2) 通过特定角色的演员进行拆分的多源头预处理，利用自动扩展的源加载器以适应异构和演变的源预处理成本；(3) 带有差异检查点的阴影加载器，以实现不间断故障恢复。在扩展到数千个GPU的生产集群上部署，OVERLORD实现了：(1) 端到端训练吞吐量提高了4.5倍，(2) 最小3.6倍的CPU内存使用量减少，进一步改进将在后续实验中添加。