LLM2D

摘要

由于视频扩散Transformer的高昂训练成本，在给定的数据和计算预算下实现其最佳性能至关重要。这需要在进行大规模训练之前精确确定最佳模型大小和训练超参数。虽然规模法则被用于语言模型以预测性能，但其在视觉生成模型中的存在及其精确推导仍然未被充分探索。本文系统地分析了视频扩散Transformer的规模法则，并证实了其存在。此外，我们发现，与语言模型不同，视频扩散模型对学习率和批量大小（这两个超参数通常没有被精确建模）更为敏感。为了解决这个问题，我们提出了一种新的规模法则，该法则可以预测任何模型大小和计算预算下的最佳超参数。在这些最佳设置下，与传统的缩放方法相比，我们在1e10 TFlops的计算预算内实现了可比的性能，并将推理成本降低了40.1%。此外，我们建立了验证损失、任何模型大小和计算预算之间更普遍和精确的关系。这使得能够预测非最佳模型大小的性能，这在实际推理成本约束下也可能适用，从而实现更好的权衡。