LLM2D

摘要

我们发现神经网络，特别是深度ReLU网络，表现出“过度泛化”现象。也就是说，对于训练过程中未见过的输入，其输出值映射到学习过程中观察到的输出范围附近。换句话说，神经网络学习的是多对一的映射，并且随着网络层数或深度的增加，这种效应更加显著。我们利用神经网络的这一特性设计了一个数据集万花筒，称为“生成式万花筒网络”。简而言之，如果我们学习一个模型将输入$x\in\mathbb{R}^D$映射到自身$f_\mathcal{N}(x)\rightarrow x$，则提出的“万花筒采样”程序从随机输入噪声$z\in\mathbb{R}^D$开始，递归地应用$f_\mathcal{N}(\cdots f_\mathcal{N}(z)\cdots )$。经过一段时间的预热期后，我们开始观察来自输入分布的样本，并且随着模型深度的增加，恢复的样本质量得到提高。范围：我们观察到其他深度学习架构（如CNN、Transformer和U-Net）在不同程度上也存在这种现象，我们目前正在进一步研究。