摘要
arXiv:2503.04598v2 宣告类型: replace-cross
摘要:转换器已经成为广泛机器学习任务的事实上的架构,特别是在大型语言模型(LLMs)中。尽管它们在性能上取得了显著成就,但在训练深层转换器网络时仍存在挑战,特别是在层归一化的位置方面。虽然预归一化(Pre-Norm)结构由于其更加突出的身份路径而有利于更容易的训练,但它们往往在性能上不如后归一化(Post-Norm)策略。在本文中,我们提出了**HybridNorm**,这是一种简单而有效的混合归一化策略,结合了预归一化和后归一化方法的优点。具体而言,HybridNorm 在每个转换器块的注意机制中使用 QKV 归一化,并在前向网络(FFN)中使用后归一化。这种设计不仅稳定了训练,还提高了性能,特别是在 LLM 的背景下。在密集和稀疏架构的全面实验中表明,HybridNorm 一致地优于预归一化和后归一化方法,在各种基准上取得了最先进的结果。这些发现突显了 HybridNorm 作为提高深层转换器模型训练和性能的一种更稳定和更有效技术的潜力。代码可在 https://github.com/BryceZhuo/HybridNorm 获取。