摘要
arXiv:2504.21356v1 公告类型: 交叉
摘要:统一多模态大型语言模型(Unified Multimodal Large Language Models, UMLLMs)旨在通过单一框架整合多模态的理解和生成能力。尽管它们具有广泛的应用性,现有的开源统一模型在性能上仍与领域特定的架构存在差距。为了弥合这一差距,我们提出了Nexus-Gen,这是一个统一模型,它将大型语言模型的语言推理能力与扩散模型的图像合成能力相结合。为了使大型语言模型和扩散模型的嵌入空间对齐,我们进行了一种双阶段对齐训练过程。首先(1),自回归大型语言模型学会在基于多模态输入的条件下预测图像嵌入;其次(2),视觉解码器被训练从这些嵌入中重建高保真图像。在训练大型语言模型时,我们发现自回归范式训练和推断阶段之间存在关键差异,其中在连续嵌入空间中的误差累积严重影响了生成质量。为了避免这个问题,我们引入了一种预填充自回归策略,使用带有位置嵌入的特殊标记填充输入序列,而不是连续嵌入。通过双阶段训练,Nexus-Gen已经具备了综合处理图像理解、生成和编辑任务的能力。所有模型、数据集和代码在https://github.com/modelscope/Nexus-Gen.git中发布,以促进该领域的进一步发展。