摘要
arXiv:2504.10845v1 交叉类型公告
摘要:以Transformer为动力的大型语言模型(LLMs)展示了类似人类的智能能力,但它们的内在机制仍然 poorly understood。本文提出了一个新颖的框架,将LLMs解释为生成概率性的左上下文敏感语言(CSLs)生成器。我们假设Transformer可以有效地分解为三个基本组成部分:上下文窗口、注意力机制和自回归生成框架。这种分解使得能够开发出更加灵活和可解释的计算模型,超越了传统上将注意力和自回归视为不可分割过程的观点。我们认为,下一个标记的预测可以被视为左CSL生成规则的概率性和动态近似,提供了简单标记预测如何产生类似人类智能输出的直观解释。鉴于所有CSLs都是左上下文敏感的(Penttonen, 1974),我们得出结论认为,Transformer以概率性的方式近似了CSLs,而CSLs被广泛认为是模拟人类智能的模型。这种解释弥合了形式语言理论与Transformer观察到的生成能力之间的差距,为未来的生成AI理论和应用奠定了基础。我们对Transformer架构的全新视角将加深对LLMs及其未来潜力的理解。