摘要
arXiv:2503.23830v1 交叉公告类型: cross
摘要: 多模态大规模语言模型(MLLMs),例如GPT-4o,正在获得显著的关注。在探索MLLM训练过程中,我们发现了一种现象——模态组成不一致(Modality Composition Incoherence),即某一模态的比例在不同示例中显著变化。这种现象加剧了mini-batch不平衡带来的挑战,导致数据并行(DP)实例之间的GPU利用率不均衡,并严重降低了MLLM训练的效率和可扩展性,最终影响训练速度并阻碍对MLLM的进一步研究。
为了解决这些挑战,我们引入了OrchMLLM,一个旨在缓解模态组成不一致导致的MLLM训练低效性的全面框架。首先,我们提出了Batch Post-Balancing Dispatcher技术,这是一种有效地解决顺序数据mini-batch不平衡的方法。此外,我们还整合了MLLM Global Orchestrator到训练框架中,以协调多模态数据并解决模态组成不一致带来的问题。我们在各种不同大小的MLLM上评估了OrchMLLM,展示了其效率和可扩展性。实验结果表明,使用OrchMLLM在2560个H100 GPU上训练一个具有三种模态的84B MLLM时,能实现Model FLOPs Utilization(MFU)为41.6%,在吞吐量上比Megatron-LM高出多达3.1倍。