LLM2D

摘要

arXiv:2310.02664v2 ANNOUNCE 类型: replace-cross 摘要：由于扩散模型能够生成新颖且高质量的数据样本，近年来它们吸引了大量研究兴趣。值得注意的是，扩散模型常见的训练目标，即去噪得分匹配，理论上存在最优解，但只能生成与训练数据样本相复制的数据。这表明理论上扩散模型会产生记忆行为，与当前最先进的扩散模型的通用泛化能力相矛盾，因此需要进一步理解。针对这一现象，我们首先观察到记忆行为更常出现在小规模数据集上，这促使我们定义了有效模型记忆（EMM）这一度量指标，用于衡量在何种大小的训练数据下学习到的扩散模型能够接近其理论最优解。然后，我们从EMM的角度定量分析了影响这些记忆行为的关键因素，重点关注数据分布、模型配置和训练过程。除了全面的经验结果识别了这些关键因素外，我们还惊讶地发现，将训练数据依据无信息随机标签进行条件化可以显著触发扩散模型中的记忆行为。我们的研究对于扩散模型用户具有实际意义，并为深度生成模型的理论研究提供了线索。代码可以在https://github.com/sail-sg/DiffMemorize获取。