摘要
arXiv:2411.07501v3 宣布类型: replace-cross
摘要:高效深度学习方法的核心支柱之一是架构改进,如残差/跳接连接,这导致了模型收敛性和质量的显著提升。从那时起,残差连接不仅在卷积神经网络中无处不在,也在基于变换器的架构中无处不在,这些架构是大型语言模型(LLMs)的核心。
在本文中,我们引入了\emph{学习增强残差层}(LAuReL)——这是对经典残差连接的一种新颖泛化——其目标是在保持现有残差连接功能的同时,在模型质量和尺寸方面超越现有方法。我们的实验表明,使用LAuReL可以提升视觉和语言模型的性能。例如,在ResNet-50和ImageNet 1K任务上,它实现了增加一层所获得性能提升的60%,同时仅增加了0.003%的参数,而在增加参数量减少2.6倍的情况下达到了相同的效果。