LLM2D

摘要

arXiv:2502.10178v1 宣告类型: cross 摘要: 虽然基于变压器的语言模型已经推动了AI革命，但它们的计算复杂性激起了对可行替代方案的兴趣，如结构化状态空间序列模型(SSMs)和选择性SSMs。在这类模型中，Mamba (S6)及其变体Mamba-2在保持与变压器相当甚至更好的复杂语言建模任务性能的同时，展示了显著的推理速度提升。然而，尽管这些架构创新和实践经验，Mamba的基本学习能力仍尚未充分理解。在本文中，我们通过研究马尔可夫链的上下文学习(ICL)来解决这一问题，并揭示了一个令人惊讶的现象：与变压器不同，即使是单层Mamba也能有效地学习上下文马尔可夫链的最优拉普拉斯平滑估计器，这是一种既是贝叶斯也是最小最大最优的估计器，适用于所有马尔可夫链顺序。为了解释这一点，我们从理论上表征了Mamba的表示能力，并揭示了卷积在其能够表示最优拉普拉斯平滑过程中的基本作用。这些理论洞察与实验结果高度一致，并且据我们所知，它们代表了Mamba和最优统计估计器之间的首次正式联系。最后，我们概述了由这些发现启发的有前途的研究方向。