LLM2D

摘要

arXiv:2407.20761v2 宣告类型: 替换摘要：最近，由于这些模型对世界有了更全面的理解，视觉-语言指令调优模型取得了显著的进步。在这项工作中，我们发现大规模并行训练这些模型会导致不同设备之间的计算负载不平衡。视觉部分和语言部分本身是异构的：它们的数据分布和模型结构差异显著，这影响了分布式训练的效率。我们从数据、模型和内存三个角度来看，重新平衡了计算负载，实现了设备之间的更均衡计算。这三个组件不是独立的，而是紧密相连，形成了一个泛在均衡训练框架。具体来说，在数据方面，我们根据设备内的和跨设备分组实例，形成新的均衡小批次。在模型方面，我们使用基于搜索的方法来实现更均衡的分区。在内存优化方面，我们针对每个分区动态调整了重计算策略，以充分利用可用内存。我们进行了广泛的实验来验证我们方法的有效性。与InternVL-Chat开源训练代码相比，我们显著减少了GPU天数，达到了大约1.8倍的加速。我们的方法的有效性和泛化性还在各种模型和数据集上得到了进一步证明。代码将在https://github.com/ModelTC/OmniBal发布。