摘要
arXiv:2503.23830v2 宣告类型: replace-cross
摘要:多模态大型语言模型(MLLMs),如GPT-4o,正引起广泛关注。在探索MLLM训练的过程中,我们发现了模态组成不一致性这一现象,即某种模态的比例在不同示例中变化剧烈。这加剧了应对小批量不均衡的挑战,导致数据并行(DP)实例间的GPU利用率不均衡,并严重降低了MLLM训练的效率和可扩展性,最终影响训练速度并妨碍对MLLM的进一步研究。
为应对这些挑战,我们引入了OrchMLLM,这是一种全面框架,旨在减轻由模态组成不一致性引起的MLLM训练中的低效率。首先,我们提出了批后平衡调度器(Batch Post-Balancing Dispatcher),这是一种有效消除序列数据中小批量不均衡的技术。此外,我们将MLLM全局调度器集成到训练框架中,以协调多模态数据并解决模态组成不一致性引起的问题。我们在各种MLLM规模下评估了OrchMLLM,展示了其效率和可扩展性。实验结果表明,当在2560个H100 GPU上训练一个包含三种模态的84B MLLM时,OrchMLLM的模型FLOPs利用率(MFU)达到了41.6%,比Megatron-LM的吞吐量高3.1倍。