摘要
arXiv:2411.07975v2 通告类型: replace-cross
摘要: 我们提出了 JanusFlow,一个强大的框架,将图像理解与生成集成为单一模型。JanusFlow 引入了一种简约的架构,将自动回归语言模型与最先进的生成建模方法之一的修正流结合起来。我们的主要发现表明,修正流可以在大型语言模型框架中直接训练,从而消除了复杂的架构修改的必要。为了进一步提高我们统一模型的性能,我们采用两项关键策略:(i) 将理解编码器和生成编码器解耦,(ii) 在联合训练过程中对它们的表示进行对齐。大量实验表明,JanusFlow 在其各自领域中的表现与专门模型相当或更优,并且在标准基准测试上显著优于现有的统一方法。这项工作代表了向更高效和多功能的跨模态模型迈出的一步。