LLM2D
MUDDFormer:通过多路动态密集连接打破变压器中的残差瓶颈
MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections
作者: Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12170v1

摘要

arXiv:2502.12170v1 类型: cross 摘要: 我们提出了 Multiway Dynamic Dense (MUDD) 连接,这是一种简单而有效的方法,用于解决残差连接的局限性并增强Transformer中的跨层信息流动。与现有具有静态和共享连接权重的稠密连接方法不同,MUDD 根据Transformer块中每个序列位置和每个分离输入流(查询、键、值或残差)的隐藏状态动态生成连接权重。MUDD 连接可以无缝集成到任何Transformer架构中,创建MUDDFormer。广泛实验证明,MUDDFormer 在各种模型架构和规模的语言建模中显著优于Transformer,实现的性能相当于使用1.8至2.4倍计算量训练的Transformer。值得注意的是,MUDDPythia-2.8B 在预训练PPL和下游任务中的表现与Pythia-6.9B相当,并且在五-shot设置中甚至与Pythia-12B竞争,而仅增加0.23%的参数和0.4%的计算量。JAX和PyTorch的代码以及预训练模型可在 https://github.com/Caiyun-AI/MUDDFormer 获取。