LLM2D
自回归 + 思维链 = 递归:递归在语言模型可计算性中的作用及递归Transformer的再探讨
Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.09239v3

摘要

Transformer架构在多种语言建模任务中表现出色,优于传统的神经架构如RNN和LSTM。这部分归功于其消除了循环连接,使得并行训练和梯度流动更加顺畅。然而,这种去循环化的设计使Transformer模型处于Chomsky计算层级的较低端,限制了其计算能力。因此,即使是先进的基于Transformer的模型在计数、字符串反转和乘法等任务上也面临相当大的困难。这些任务虽然看似简单,但需要的计算复杂度超出了Transformer架构的能力。同时,“思维链”提示的出现使基于Transformer的语言模型能够解决以前不可能或执行不佳的任务。在这项工作中,我们深入研究了神经模型中循环结构对其推理能力和可计算性的影响,对比了自回归在神经模型计算能力中的作用。然后,我们揭示了CoT方法如何模拟循环计算,并在语言模型背景下充当自回归和循环之间的桥梁。正是这种近似的循环显著提高了模型的性能和计算能力。此外,我们重新审视了最近基于循环的Transformer模型设计,重点关注其通过我们提出的“循环完备性”概念来评估其计算能力,并识别出Linear Transformer和RWKV等模型中的关键理论局限性。通过这一研究,我们旨在提供对神经模型架构的见解,并促进更好的模型设计。