LLM2D

摘要

扩散模型能够生成逼真的图像，这些图像组合了训练集中可能不会同时出现的元素，展现了其**组合泛化**的能力。然而，组合性的确切机制以及它是如何通过训练习得的仍然难以捉摸。受认知神经科学方法的启发，我们考虑了一个高度简化的设置，以检查扩散模型是否以及何时学习可组合特征的语义上有意义的、分解的表示。我们对条件去噪扩散概率模型 (DDPM) 进行了广泛的受控实验，训练这些模型生成各种形式的二维高斯凸起图像。我们发现，模型学习了分解的，但不是完全连续的流形表示，用于编码数据中潜在的连续变化特征。凭借这种表示，模型展现出优越的特征组合性，但对给定特征的未见值进行插值的能力有限。我们的实验结果进一步表明，扩散模型可以通过很少的组合示例获得组合性，这表明了一种更有效的训练 DDPM 的方法。最后，我们将扩散模型中的流形形成与物理学中的渗流理论联系起来，为分解表示学习的突然出现提供了洞察。我们详尽的玩具实验因此有助于更深入地理解扩散模型如何捕获数据中的组合结构。