LLM2D
柯尔莫哥洛夫-阿诺德网络中(随机)梯度下降的收敛性
On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks
作者: Yihang Gao, Vincent Y. F. Tan
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.08041v1

摘要

柯尔莫哥洛夫-阿诺德网络 (KANs) 是一种最近提出的神经网络架构,由于其作为多层感知器 (MLPs) 的可行替代方案的潜力及其在各种科学任务中的广泛适用性,在深度学习领域引起了极大的关注。实证研究表明,通过随机梯度下降 (SGD) 优化的 KANs 能够在各种机器学习 (例如回归、分类和时间序列预测等) 和科学任务 (例如求解偏微分方程) 中实现接近零的训练损失。在本文中,我们通过对求解回归和物理信息任务的两层 KANs 的梯度下降 (GD) 和 SGD 进行严格的收敛分析,对经验成功进行了理论解释。对于回归问题,我们使用神经切线核视角证明,当 KANs 的隐藏维度足够大时,GD 实现了目标函数的全局线性收敛。我们进一步将这些结果扩展到 SGD,证明了类似的全局收敛期望。此外,我们分析了物理信息 KANs 的 GD 和 SGD 的全局收敛性,这揭示了由于更复杂的损失结构而带来的额外挑战。这是第一项工作建立了应用于优化 KANs 和物理信息 KANs 的 GD 和 SGD 的全局收敛保证。