LLM2D

摘要

arXiv:2504.12532v1 宣称类型: cross 摘要: 扩散模型如何泛化到训练集之外尚不清楚，这在两个事实面前显得更为神秘：通常用于训练扩散模型的目标函数（去噪评分匹配）的最优解是训练分布的评分函数；而通常用于学习评分函数的网络足够表达能力强，可以高精度地学习到这一评分函数。我们认为，去噪评分匹配目标函数的一个特定特征——其目标不仅不是训练分布的评分函数，而是一个期望上与之相等的噪声量——对扩散模型是否以及在多大程度上泛化产生了重要影响。在这篇论文中，我们发展了一个数学理论，部分解释了这种“通过方差泛化”现象。我们的理论分析利用了受物理启发的路径积分方法来计算一些典型的欠参数化和过参数化扩散模型通常学习到的分布。我们发现，扩散模型实际上学习到的用于采样的分布与训练分布相似，但填补了“缺口”，这种归纳偏见的原因是训练过程中使用的噪声目标的协方差结构。我们还分析了这种归纳偏见与特征相关归纳偏见的相互作用。