LLM2D

摘要

arXiv:2504.10845v1 交叉类型公告摘要：以Transformer为动力的大型语言模型（LLMs）展示了类似人类的智能能力，但它们的内在机制仍然 poorly understood。本文提出了一个新颖的框架，将LLMs解释为生成概率性的左上下文敏感语言（CSLs）生成器。我们假设Transformer可以有效地分解为三个基本组成部分：上下文窗口、注意力机制和自回归生成框架。这种分解使得能够开发出更加灵活和可解释的计算模型，超越了传统上将注意力和自回归视为不可分割过程的观点。我们认为，下一个标记的预测可以被视为左CSL生成规则的概率性和动态近似，提供了简单标记预测如何产生类似人类智能输出的直观解释。鉴于所有CSLs都是左上下文敏感的（Penttonen, 1974），我们得出结论认为，Transformer以概率性的方式近似了CSLs，而CSLs被广泛认为是模拟人类智能的模型。这种解释弥合了形式语言理论与Transformer观察到的生成能力之间的差距，为未来的生成AI理论和应用奠定了基础。我们对Transformer架构的全新视角将加深对LLMs及其未来潜力的理解。