摘要
由于视频扩散Transformer的高昂训练成本,在给定的数据和计算预算下实现其最佳性能至关重要。这需要在进行大规模训练之前精确确定最佳模型大小和训练超参数。虽然规模法则被用于语言模型以预测性能,但其在视觉生成模型中的存在及其精确推导仍然未被充分探索。本文系统地分析了视频扩散Transformer的规模法则,并证实了其存在。此外,我们发现,与语言模型不同,视频扩散模型对学习率和批量大小(这两个超参数通常没有被精确建模)更为敏感。为了解决这个问题,我们提出了一种新的规模法则,该法则可以预测任何模型大小和计算预算下的最佳超参数。在这些最佳设置下,与传统的缩放方法相比,我们在1e10 TFlops的计算预算内实现了可比的性能,并将推理成本降低了40.1%。此外,我们建立了验证损失、任何模型大小和计算预算之间更普遍和精确的关系。这使得能够预测非最佳模型大小的性能,这在实际推理成本约束下也可能适用,从而实现更好的权衡。