LLM2D
生成式万花筒网络
Generative Kaleidoscopic Networks
作者: Harsh Shrivastava
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2402.11793v4

摘要

我们发现神经网络,特别是深度ReLU网络,表现出“过度泛化”现象。也就是说,对于训练过程中未见过的输入,其输出值映射到学习过程中观察到的输出范围附近。换句话说,神经网络学习的是多对一的映射,并且随着网络层数或深度的增加,这种效应更加显著。我们利用神经网络的这一特性设计了一个数据集万花筒,称为“生成式万花筒网络”。简而言之,如果我们学习一个模型将输入$x\in\mathbb{R}^D$映射到自身$f_\mathcal{N}(x)\rightarrow x$,则提出的“万花筒采样”程序从随机输入噪声$z\in\mathbb{R}^D$开始,递归地应用$f_\mathcal{N}(\cdots f_\mathcal{N}(z)\cdots )$。经过一段时间的预热期后,我们开始观察来自输入分布的样本,并且随着模型深度的增加,恢复的样本质量得到提高。范围:我们观察到其他深度学习架构(如CNN、Transformer和U-Net)在不同程度上也存在这种现象,我们目前正在进一步研究。