摘要
经过训练的 Transformer 模型已被发现能够执行可解释的程序,例如算术和联想记忆,但人们对这些程序的实现电路在训练过程中是如何产生的知之甚少。这些电路在多大程度上依赖于模型的监督信号,以及在多大程度上归因于模型在训练开始时就已存在的行为?为了研究这些问题,我们研究了随机初始化的 Transformer 模型能够学习哪些函数,其中只有嵌入层被优化,因此从数据中学习到的唯一输入-输出映射是那些由随机初始化的模型已经实现的(直到编码方案的选择)。我们发现这些随机 Transformer 能够执行各种有意义的算法任务,包括模运算、权重内和上下文内联想记忆、十进制加法、括号平衡,甚至自然语言文本生成的某些方面。我们的结果表明,即使在模型训练之前,一些算法能力就存在于 Transformer 中(并且可以通过适当结构化的输入访问)。代码可在 https://github.com/fjzzq2002/random_transformers 获取。