LLM2D

摘要

arXiv:2505.05181v1 宣布类型: cross 摘要: 反向传播（BP）是深度学习的基石，但其依赖全局梯度同步限制了其可扩展性并带来了显著的内存开销。我们提出了随机变分传播（SVP），这是一种可扩展的替代方法，将训练重新构想为层次变分推断。SVP 将每一层的激活视为潜在变量，并优化局部证据下界（ELBO），这使得局部独立更新成为可能，同时保持全局一致性。然而，直接在逐层的 ELBO 中应用 KL 发散风险因过度压缩导致层次之间的表示崩溃。为了防止这种情况，SVP 通过固定随机矩阵将激活投影到低维空间，从而确保信息保留和表示多样性。结合层间一致性的特征对齐损失，SVP 在各种架构（MLPs、CNNs、Transformers）和数据集（MNIST 至 ImageNet）上实现了与 BP 竞争的准确性，内存使用减少了多达 4 倍，并显著提高了可扩展性。更广泛地说，SVP 引入了对深层表示学习的概率视角，为更加模块化和可解释的神经网络设计打开了途径。