摘要
arXiv:2502.05300v1 交叉公告类型:交叉学科
摘要:现代大型AI系统的学习动态是分层的,经常表现出类似于物理系统中观察到的相转变的突然且定性的转变。虽然这些现象有望揭示神经网络和语言模型背后的机制,但目前的理论仍显破碎,仅针对特定案例进行了解释。在本文中,我们提出参数对称性的破缺和恢复是这些行为背后的统一机制。我们综合了先前的观察,并展示了这一机制如何解释神经网络中的三个不同层次:学习动态、模型复杂性和表示形成。通过将这些层次联系起来,我们强调了对称性——这是理论物理学的基石——可能是现代AI中的一个潜在的基本原则。