LLM2D
Tracr Transformer 的神经反编译
Neural Decompiling of Tracr Transformers
作者: Hannes Thurnherr, Kaspar Riesen
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00061v1

摘要

近年来,Transformer 架构在模式识别和机器学习的许多领域取得了重大进展。然而,与其他神经网络模型一样,目前还没有通用的方法来解释它们的内部工作机制。本文代表了朝着这个方向迈出的第一步。我们利用 *Transformer Compiler for RASP* (Tracr) 生成一个大型数据集,其中包含 Transformer 权重和相应的 RASP 程序对。基于此数据集,我们构建并训练了一个模型,旨在从编译后的模型中恢复 RASP 代码。我们证明,Tracr 编译后的 Transformer 权重的简单形式对于这种反编译模型来说是可解释的。在实证评估中,我们的模型在超过 30% 的测试对象上实现了精确复制,而其余 70% 通常只需要少量错误就可以复制。此外,超过 70% 的程序,由我们的模型生成,在功能上等同于基本事实,因此是 Tracr 编译后的 Transformer 权重的有效反编译。