LLM2D
从 Transformer 中提取有限状态机
Extracting Finite State Machines from Transformers
作者: Rik Adriaensen, Jaron Maene
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06045v1

摘要

受深度学习中 Transformer 架构流行的推动,许多研究工作已经探索了 Transformer 可以学习哪些形式语言。然而,现有结果仍然难以比较,并且对 Transformer 在正则语言上的可训练性的细粒度理解仍然不足。我们从机械可解释性的角度研究了在正则语言上训练的 Transformer。利用 $L^*$ 算法的扩展,我们从 Transformer 中提取了 Moore 机。当有限数量的符号决定状态时,我们通过实证发现 Transformer 可训练性的更紧密的较低界限。此外,我们的机械洞察力使我们能够描述单层 Transformer 可以学习的正则语言,并具有良好的长度泛化性。然而,我们也发现了失败案例,其中决定性符号由于注意力机制的饱和而被误识别。