LLM2D
使用批量后平衡协调多模态数据以加速多模态大型语言模型训练
Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training
作者: Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda Liu
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2503.23830v2

摘要

arXiv:2503.23830v2 宣告类型: replace-cross 摘要:多模态大型语言模型(MLLMs),如GPT-4o,正引起广泛关注。在探索MLLM训练的过程中,我们发现了模态组成不一致性这一现象,即某种模态的比例在不同示例中变化剧烈。这加剧了应对小批量不均衡的挑战,导致数据并行(DP)实例间的GPU利用率不均衡,并严重降低了MLLM训练的效率和可扩展性,最终影响训练速度并妨碍对MLLM的进一步研究。 为应对这些挑战,我们引入了OrchMLLM,这是一种全面框架,旨在减轻由模态组成不一致性引起的MLLM训练中的低效率。首先,我们提出了批后平衡调度器(Batch Post-Balancing Dispatcher),这是一种有效消除序列数据中小批量不均衡的技术。此外,我们将MLLM全局调度器集成到训练框架中,以协调多模态数据并解决模态组成不一致性引起的问题。我们在各种MLLM规模下评估了OrchMLLM,展示了其效率和可扩展性。实验结果表明,当在2560个H100 GPU上训练一个包含三种模态的84B MLLM时,OrchMLLM的模型FLOPs利用率(MFU)达到了41.6%,比Megatron-LM的吞吐量高3.1倍。