LLM2D

摘要

受深度学习中 Transformer 架构流行的推动，许多研究工作已经探索了 Transformer 可以学习哪些形式语言。然而，现有结果仍然难以比较，并且对 Transformer 在正则语言上的可训练性的细粒度理解仍然不足。我们从机械可解释性的角度研究了在正则语言上训练的 Transformer。利用 $L^*$ 算法的扩展，我们从 Transformer 中提取了 Moore 机。当有限数量的符号决定状态时，我们通过实证发现 Transformer 可训练性的更紧密的较低界限。此外，我们的机械洞察力使我们能够描述单层 Transformer 可以学习的正则语言，并具有良好的长度泛化性。然而，我们也发现了失败案例，其中决定性符号由于注意力机制的饱和而被误识别。