LLM2D
随机变分传播:背传的一种局部、可扩展且高效的替代方法
Stochastic Variational Propagation: Local, Scalable and Efficient Alternative to Backpropagation
作者: Bojian Yin, Federico Corradi
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.05181v1

摘要

arXiv:2505.05181v1 宣布类型: cross 摘要: 反向传播(BP)是深度学习的基石,但其依赖全局梯度同步限制了其可扩展性并带来了显著的内存开销。我们提出了随机变分传播(SVP),这是一种可扩展的替代方法,将训练重新构想为层次变分推断。SVP 将每一层的激活视为潜在变量,并优化局部证据下界(ELBO),这使得局部独立更新成为可能,同时保持全局一致性。然而,直接在逐层的 ELBO 中应用 KL 发散风险因过度压缩导致层次之间的表示崩溃。为了防止这种情况,SVP 通过固定随机矩阵将激活投影到低维空间,从而确保信息保留和表示多样性。结合层间一致性的特征对齐损失,SVP 在各种架构(MLPs、CNNs、Transformers)和数据集(MNIST 至 ImageNet)上实现了与 BP 竞争的准确性,内存使用减少了多达 4 倍,并显著提高了可扩展性。更广泛地说,SVP 引入了对深层表示学习的概率视角,为更加模块化和可解释的神经网络设计打开了途径。