LLM2D

摘要

近年来，Transformer 架构在模式识别和机器学习的许多领域取得了重大进展。然而，与其他神经网络模型一样，目前还没有通用的方法来解释它们的内部工作机制。本文代表了朝着这个方向迈出的第一步。我们利用 *Transformer Compiler for RASP* (Tracr) 生成一个大型数据集，其中包含 Transformer 权重和相应的 RASP 程序对。基于此数据集，我们构建并训练了一个模型，旨在从编译后的模型中恢复 RASP 代码。我们证明，Tracr 编译后的 Transformer 权重的简单形式对于这种反编译模型来说是可解释的。在实证评估中，我们的模型在超过 30% 的测试对象上实现了精确复制，而其余 70% 通常只需要少量错误就可以复制。此外，超过 70% 的程序，由我们的模型生成，在功能上等同于基本事实，因此是 Tracr 编译后的 Transformer 权重的有效反编译。