LLM2D

摘要

arXiv:2505.05181v2 宣告类型: replace-cross 摘要: 反向传播（BP）是深度学习的基石，但其对全局梯度同步的依赖限制了其可扩展性并产生了重大的内存开销。我们提出了随机变分传播（SVP），这是一种可扩展的替代方法，将训练重新构想为分层变分推断。SVP 将层激活视为潜在变量，并优化局部证据下界（ELBO），从而实现独立、局部更新，同时保持全局一致性。然而，直接在分层ELBO中应用Kullback-Leibler（KL）散度可能会由于过度压缩而导致层之间的表示崩溃。为了防止这种情况，SVP 通过固定随机矩阵将激活投影到低维空间，确保信息的保留和表示的多样性。结合跨层一致性的特征对齐损失，SVP 在多种架构（MLPs、CNNs、Transformers）和数据集（MNIST 到 ImageNet）上实现了与BP竞争的准确性，将内存使用量最多减少了4倍，并显著提高了可扩展性。更广泛地说，SVP 引入了对深层表示学习的概率观点，为更模块化和可解释的神经网络设计开辟了途径。