摘要
arXiv:2407.20761v3 通知类型: 替换
摘要: 最近,由于这些模型对世界的理解更加全面,视觉-语言指令调优模型取得了显著进展。在本工作中,我们发现large-scale 3D并行训练导致不同设备上的计算负载不平衡。视觉和语言部分本质上是异构的:它们的数据分布和模型架构差异很大,这影响了分布式训练的效率。我们从数据、模型和内存角度重新平衡计算负载,以解决这个问题,从而在设备之间实现更平衡的计算。这三个组成部分不是独立的,而是紧密相连的,形成了一个全方位平衡训练框架。具体而言,在数据方面,我们按照新的平衡最小批量对实例进行分组,包括跨设备。在模型方面,我们采用了基于搜索的方法来实现更平衡的分区。在内存优化方面,我们针对每个分区调整再计算策略,充分利用可用内存。我们进行了大量实验以验证我们方法的有效性。与开源训练代码InternVL-Chat相比,我们显著减少了GPU天数,实现了大约1.8倍的加速。我们在各种模型和数据集上进一步证明了我们方法的有效性和通用性。代码将在https://github.com/ModelTC/OmniBal发布。