摘要
arXiv:2501.15889v3 宣告类型:替换交叉
摘要:将近70年来,研究人员主要依赖超参数调整来选择神经网络层的宽度。本文通过介绍一种在训练过程中学习神经网络层的无界宽度的简便技术来挑战这一传统做法。该技术不依赖于交替优化或手工设计的梯度启发式;相反,它通过简单的反向传播同时优化每个层的宽度和参数。我们将该技术应用于广泛的数据库领域,如表格、图像、文本、序列和图,展示了宽度如何适应任务的难度。该方法通过一种软排序方式赋予神经元重要的优先级,从而可以在几乎不增加成本的情况下裁剪训练网络,实现性能和计算资源之间平滑的结构化权衡。或者,可以动态压缩网络而不降低性能。鉴于近期在大量数据集上训练的大型基础模型,据信需要数十亿个参数,且由于巨大的训练成本使超参数调整不再可行,我们的方法为宽度学习提供了一个可行的替代方案。