LLM2D
LMFusion: 调整预训练语言模型以实现多模态生成
LMFusion: Adapting Pretrained Language Models for Multimodal Generation
作者: Weijia Shi, Xiaochuang Han, Chunting Zhou, Weixin Liang, Xi Victoria Lin, Luke Zettlemoyer, Lili Yu
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2412.15188v4

摘要

arXiv:2412.15188v4 通知类型: replace-cross 摘要:我们介绍了LMFusion,这是一种框架,旨在增强预训练的纯文本大型语言模型(LLMs)的跨模态生成能力,使它们能够理解和生成任意序列的文本和图像。LMFusion 利用现有的 Llama-3 的权重进行自回归处理文本,同时引入额外的并行变压器模块处理通过扩散处理的图像。在训练过程中,每种模态的数据会路由到其专用模块中:专门的前馈层、查询-键-值投影和规范化层独立处理每种模态,而共享的自我注意层则允许文本和图像特征间的交互。通过冻结文本特定的模块,仅训练图像特定的模块,LMFusion 保留了纯文本LLM的语言能力,同时发展了强大的视觉理解和生成能力。与从头开始预训练跨模态生成模型的方法相比,我们的实验结果表明,LMFusion 使用只有50%的FLOPs,图像理解能力提高了20%,图像生成能力提高了3.6%,同时保持了Llama-3的语言能力。我们还展示了该框架可以适应现有的具有跨模态生成能力的图语模型。总体而言,该框架不仅利用了现有的文本仅限的LLM的计算投资,而且还促进了语言和视觉能力的同时开发,展示了高效跨模态模型开发的前景。