LLM2D
从马尔可夫到拉普拉斯:马amba上下文学习马尔可夫链的过程
From Markov to Laplace: How Mamba In-Context Learns Markov Chains
作者: Marco Bondaschi, Nived Rajaraman, Xiuying Wei, Kannan Ramchandran, Razvan Pascanu, Caglar Gulcehre, Michael Gastpar, Ashok Vardhan Makkuva
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10178v1

摘要

arXiv:2502.10178v1 宣告类型: cross 摘要: 虽然基于变压器的语言模型已经推动了AI革命,但它们的计算复杂性激起了对可行替代方案的兴趣,如结构化状态空间序列模型(SSMs)和选择性SSMs。在这类模型中,Mamba (S6)及其变体Mamba-2在保持与变压器相当甚至更好的复杂语言建模任务性能的同时,展示了显著的推理速度提升。然而,尽管这些架构创新和实践经验,Mamba的基本学习能力仍尚未充分理解。在本文中,我们通过研究马尔可夫链的上下文学习(ICL)来解决这一问题,并揭示了一个令人惊讶的现象:与变压器不同,即使是单层Mamba也能有效地学习上下文马尔可夫链的最优拉普拉斯平滑估计器,这是一种既是贝叶斯也是最小最大最优的估计器,适用于所有马尔可夫链顺序。为了解释这一点,我们从理论上表征了Mamba的表示能力,并揭示了卷积在其能够表示最优拉普拉斯平滑过程中的基本作用。这些理论洞察与实验结果高度一致,并且据我们所知,它们代表了Mamba和最优统计估计器之间的首次正式联系。最后,我们概述了由这些发现启发的有前途的研究方向。