LLM2D

摘要

扩散模型已成为生成各种领域高质量视觉信号的事实标准。然而，训练单个模型来预测不同层次的噪声带来了巨大的挑战，需要大量的迭代并产生巨大的计算成本。各种方法，例如损失权重策略设计和架构改进，已被引入以加快收敛并提高模型性能。在本研究中，我们提出了一种设计噪声调度以增强扩散模型训练的新方法。我们的关键见解是，对信噪比对数 ($\log \text{SNR}$) 进行重要性采样，在理论上等效于改进的噪声调度，当增加 $\log \text{SNR}=0$ 附近的采样频率时，对于提高训练效率特别有利。这种策略性采样允许模型关注信号主导和噪声主导之间的关键转变点，从而可能产生更稳健和准确的预测。我们通过实验证明了我们的噪声调度优于标准余弦调度。此外，我们还在 ImageNet 基准测试中强调了我们噪声调度设计的优势，表明设计的调度方案始终有利于不同的预测目标。我们的发现有助于持续优化扩散模型的工作，可能为生成式 AI 领域更有效率和有效的训练范式铺平道路。