LLM2D

摘要

arXiv:2503.22517v1 宣告类型: cross 摘要: 在这项工作中，我们致力于在保留原始语言生成能力的同时，通过满足两个核心约束来增强预训练的仅文本大型语言模型（LLMs）的生成能力，同时保留其原有的性能几乎无降级：C1 保留原始语言生成能力，性能降级可忽略不计，C2 遵循较小的参数预算来学习新的模态，确保可扩展性和效率。与当前方法不同，这些方法通过添加专用模块大幅增加参数量，我们提出了一种方法，利用深度模型中未充分利用的能力。具体而言，我们利用混合专家（MoE）中的参数冗余作为学习新模态的额外容量的来源，从而实现更好的参数效率（C1）。此外，我们通过仅对新模态的标记应用低秩适应，保留原始语言生成能力（C2）。此外，我们引入了一种基于格罗默-瓦尔什距离的新型参数初始化方案，以提高收敛性和训练稳定性。通过对路由机制的广泛分析，我们发现了模态特定路径的涌现和专家内部冗余的减少，这可以高效地解锁多模态生成能力。总体而言，我们的方法可以无缝应用于各种现代LLMs，提供了一条从单模态向多模态架构过渡的新途径。