摘要
arXiv:2503.22517v2 通知类型: 替换-交叉
摘要: 在这项工作中,我们致力于将现有的预训练纯文本大型语言模型(LLMs)的生成能力与多模态生成能力相结合,同时满足两项核心约束:C1 保留原始语言生成能力,且几乎不降低性能,C2 遵循较小的参数预算来学习新模态,确保可扩展性和效率。与当前增加专用模块的方法不同,这会显著增加参数数量,我们提出了一种利用深度模型中未充分利用的容量的方法。具体而言,我们利用专家混合(MoEs)中的参数冗余作为学习新模态的额外容量来源,从而实现更好的参数效率(C1)。此外,我们通过仅对新模态的标记进行低秩适应来保留原始的语言生成能力(C2)。此外,我们引入了一种基于广义 Wasserstein 距离的新参数初始化方案,以提高收敛性和训练稳定性。通过对路由机制的广泛分析,我们发现模态特定的路径的出现和专家内部冗余的减少,这可以高效地解锁多模态生成能力。总体而言,我们的方法可以无缝应用于各种 Contemporary LLMs,为从单模态向多模态架构过渡提供了新的途径。