LLM2D
JanusFlow:结合自回归和修正流以实现统一的多模态理解和生成
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
作者: Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2411.07975v2

摘要

arXiv:2411.07975v2 通告类型: replace-cross 摘要: 我们提出了 JanusFlow,一个强大的框架,将图像理解与生成集成为单一模型。JanusFlow 引入了一种简约的架构,将自动回归语言模型与最先进的生成建模方法之一的修正流结合起来。我们的主要发现表明,修正流可以在大型语言模型框架中直接训练,从而消除了复杂的架构修改的必要。为了进一步提高我们统一模型的性能,我们采用两项关键策略:(i) 将理解编码器和生成编码器解耦,(ii) 在联合训练过程中对它们的表示进行对齐。大量实验表明,JanusFlow 在其各自领域中的表现与专门模型相当或更优,并且在标准基准测试上显著优于现有的统一方法。这项工作代表了向更高效和多功能的跨模态模型迈出的一步。