LLM2D

摘要

arXiv:2503.23830v1 交叉公告类型: cross 摘要: 多模态大规模语言模型（MLLMs），例如GPT-4o，正在获得显著的关注。在探索MLLM训练过程中，我们发现了一种现象——模态组成不一致（Modality Composition Incoherence），即某一模态的比例在不同示例中显著变化。这种现象加剧了mini-batch不平衡带来的挑战，导致数据并行（DP）实例之间的GPU利用率不均衡，并严重降低了MLLM训练的效率和可扩展性，最终影响训练速度并阻碍对MLLM的进一步研究。为了解决这些挑战，我们引入了OrchMLLM，一个旨在缓解模态组成不一致导致的MLLM训练低效性的全面框架。首先，我们提出了Batch Post-Balancing Dispatcher技术，这是一种有效地解决顺序数据mini-batch不平衡的方法。此外，我们还整合了MLLM Global Orchestrator到训练框架中，以协调多模态数据并解决模态组成不一致带来的问题。我们在各种不同大小的MLLM上评估了OrchMLLM，展示了其效率和可扩展性。实验结果表明，使用OrchMLLM在2560个H100 GPU上训练一个具有三种模态的84B MLLM时，能实现Model FLOPs Utilization（MFU）为41.6%，在吞吐量上比Megatron-LM高出多达3.1倍。