摘要
arXiv:2502.12170v1 类型: cross
摘要: 我们提出了 Multiway Dynamic Dense (MUDD) 连接,这是一种简单而有效的方法,用于解决残差连接的局限性并增强Transformer中的跨层信息流动。与现有具有静态和共享连接权重的稠密连接方法不同,MUDD 根据Transformer块中每个序列位置和每个分离输入流(查询、键、值或残差)的隐藏状态动态生成连接权重。MUDD 连接可以无缝集成到任何Transformer架构中,创建MUDDFormer。广泛实验证明,MUDDFormer 在各种模型架构和规模的语言建模中显著优于Transformer,实现的性能相当于使用1.8至2.4倍计算量训练的Transformer。值得注意的是,MUDDPythia-2.8B 在预训练PPL和下游任务中的表现与Pythia-6.9B相当,并且在五-shot设置中甚至与Pythia-12B竞争,而仅增加0.23%的参数和0.4%的计算量。JAX和PyTorch的代码以及预训练模型可在 https://github.com/Caiyun-AI/MUDDFormer 获取。