LLM2D

摘要

arXiv:2502.05300v1 交叉公告类型：交叉学科摘要：现代大型AI系统的学习动态是分层的，经常表现出类似于物理系统中观察到的相转变的突然且定性的转变。虽然这些现象有望揭示神经网络和语言模型背后的机制，但目前的理论仍显破碎，仅针对特定案例进行了解释。在本文中，我们提出参数对称性的破缺和恢复是这些行为背后的统一机制。我们综合了先前的观察，并展示了这一机制如何解释神经网络中的三个不同层次：学习动态、模型复杂性和表示形成。通过将这些层次联系起来，我们强调了对称性——这是理论物理学的基石——可能是现代AI中的一个潜在的基本原则。