LLM2D

摘要

arXiv:2503.23830v2 宣告类型: replace-cross 摘要：多模态大型语言模型（MLLMs），如GPT-4o，正引起广泛关注。在探索MLLM训练的过程中，我们发现了模态组成不一致性这一现象，即某种模态的比例在不同示例中变化剧烈。这加剧了应对小批量不均衡的挑战，导致数据并行（DP）实例间的GPU利用率不均衡，并严重降低了MLLM训练的效率和可扩展性，最终影响训练速度并妨碍对MLLM的进一步研究。为应对这些挑战，我们引入了OrchMLLM，这是一种全面框架，旨在减轻由模态组成不一致性引起的MLLM训练中的低效率。首先，我们提出了批后平衡调度器（Batch Post-Balancing Dispatcher），这是一种有效消除序列数据中小批量不均衡的技术。此外，我们将MLLM全局调度器集成到训练框架中，以协调多模态数据并解决模态组成不一致性引起的问题。我们在各种MLLM规模下评估了OrchMLLM，展示了其效率和可扩展性。实验结果表明，当在2560个H100 GPU上训练一个包含三种模态的84B MLLM时，OrchMLLM的模型FLOPs利用率（MFU）达到了41.6%，比Megatron-LM的吞吐量高3.1倍。