LLM2D

摘要

arXiv:2411.07501v3 宣布类型: replace-cross 摘要：高效深度学习方法的核心支柱之一是架构改进，如残差/跳接连接，这导致了模型收敛性和质量的显著提升。从那时起，残差连接不仅在卷积神经网络中无处不在，也在基于变换器的架构中无处不在，这些架构是大型语言模型（LLMs）的核心。在本文中，我们引入了\emph{学习增强残差层}（LAuReL）——这是对经典残差连接的一种新颖泛化——其目标是在保持现有残差连接功能的同时，在模型质量和尺寸方面超越现有方法。我们的实验表明，使用LAuReL可以提升视觉和语言模型的性能。例如，在ResNet-50和ImageNet 1K任务上，它实现了增加一层所获得性能提升的60%，同时仅增加了0.003%的参数，而在增加参数量减少2.6倍的情况下达到了相同的效果。