LLM2D
利用Mixture-of-Experts冗余性解锁多模态生成能力
Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities
作者: Raman Dutt, Harleen Hanspal, Guoxuan Xia, Petru-Daniel Tudosiu, Alexander Black, Yongxin Yang, Steven McDonagh, Sarah Parisot
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22517v1

摘要

arXiv:2503.22517v1 宣告类型: cross 摘要: 在这项工作中,我们致力于在保留原始语言生成能力的同时,通过满足两个核心约束来增强预训练的仅文本大型语言模型(LLMs)的生成能力,同时保留其原有的性能几乎无降级:C1 保留原始语言生成能力,性能降级可忽略不计,C2 遵循较小的参数预算来学习新的模态,确保可扩展性和效率。与当前方法不同,这些方法通过添加专用模块大幅增加参数量,我们提出了一种方法,利用深度模型中未充分利用的能力。具体而言,我们利用混合专家(MoE)中的参数冗余作为学习新模态的额外容量的来源,从而实现更好的参数效率(C1)。此外,我们通过仅对新模态的标记应用低秩适应,保留原始语言生成能力(C2)。此外,我们引入了一种基于格罗默-瓦尔什距离的新型参数初始化方案,以提高收敛性和训练稳定性。通过对路由机制的广泛分析,我们发现了模态特定路径的涌现和专家内部冗余的减少,这可以高效地解锁多模态生成能力。总体而言,我们的方法可以无缝应用于各种现代LLMs,提供了一条从单模态向多模态架构过渡的新途径。