摘要
arXiv:2410.09375v2 宣告类型: 替换-交叉
摘要:先前的工作已经证明了注意力机制是图灵完备的。最近的研究进一步表明,一个带有循环的9层Transformer可以作为通用编程计算机工作。相比之下,带ReLU激活函数的多层感知机(ReLU-MLP),神经网络中最基本的组件之一,已知具有很强的表现力;特别是,给定指数数量的隐单元时,两层神经网络可以作为通用逼近器。然而,仍然不清楚是否可以通过实际数量的权重将ReLU-MLP转变为通用编程计算机。在这项工作中,我们提供了一个肯定的回答,即一个带有循环的23层ReLU-MLP能够执行基本的必需操作,并且比带有循环的Transformer更高效、更有效地作为编程计算机工作。这表明简单的模块具有比先前预期更强的表现力,并且尚未被充分探索。我们的工作为神经网络的机制提供了见解,并表明像Transformer这样的高级架构并不一定需要来进行复杂任务,如编程计算机的工作。