摘要
arXiv:2504.21356v2 统一模型类型: 替换-交叉
摘要:统一多模态大型语言模型(MLLMs)旨在通过单一框架整合多模态理解和生成能力。尽管它们具有灵活性,但现有的开源统一模型在性能上仍不及特定领域的架构。为了解决这个问题,我们提出了Nexus-Gen,这是一种能够将大型语言模型的语言推理能力与扩散模型的图像合成能力结合起来的统一模型。为了使大型语言模型和扩散模型的嵌入空间对齐,我们进行了一种双阶段对齐训练过程。(1) 自回归大型语言模型学习预测基于多模态输入的图像嵌入,而(2) 视觉解码器则根据这些嵌入重建高保真图像。在训练大规模语言模型的过程中,我们发现自回归范式训练和推理阶段之间存在一个关键差异,连续嵌入空间中的错误累积严重影响了生成质量。为了避免这个问题,我们引入了一种预填充自回归策略,该策略使用带有位置嵌入的特殊标记来填充输入序列,而不是连续嵌入。通过双阶段训练,Nexus-Gen已经具备了综合解决图像理解、生成和编辑任务的能力。所有模型、数据集和代码均在 https://github.com/modelscope/Nexus-Gen.git 公开发布,以促进跨领域的进一步进步。