LLM2D
几乎贝叶斯:随机梯度下降的分形动力学
Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent
作者: Max Hennick, Stijn De Baerdemacker
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22478v1

摘要

arXiv:2503.22478v1 类别: cross 摘要: 通过展示随机梯度下降(SGD)在分形景观上的有效扩散过程,我们证明了SGD的行为与贝叶斯统计相关。分形维度可以通过纯粹的贝叶斯方式来进行计算。通过这种方式,我们表明SGD可以被视为一种修正后的贝叶斯采样器,它可以考虑到由损失景观的分形结构引起的可访问性约束。我们通过检查训练期间权重的扩散来实验证明了我们的结果。这些结果为决定学习过程的因素提供了见解,并似乎回答了SGD与纯粹贝叶斯采样之间的关系问题。