LLM2D

摘要

arXiv:2503.23016v1 优化类型: 跨域摘要: 在本文中，我们从概率分布估计的角度探索了深度神经网络在监督分类中的优化机制。我们证明，在使用芬彻-杨损失时，尽管拟合误差相对于模型参数是非凸的，通过同时最小化梯度范数和结构误差，可以近似获得全局最优解。前者可以通过梯度下降算法来控制。对于后者，我们证明可以通过增加参数数量并确保参数独立性来管理，从而为诸如过参数化和随机初始化等机制提供了理论洞察。最终，通过实验证明了所提出方法的关键结论，展示了其实际有效性。