摘要
arXiv:2501.00289v2 通知类型: 替换-交叉
摘要:扩散模型在文本到图像生成中取得了巨大成功,但在视觉理解任务中仍落后于由自回归视觉语言模型主导的领域。我们提出了一种大规模的端到端多模态理解与生成扩散模型,该模型显著优于现有的多模态扩散模型,并且是首个能够支持全套视觉语言建模能力的模型。受多模态扩散变换器(MM-DiT)和离散扩散语言建模近期进展的启发,我们利用一种跨模态最大似然估计框架,在单一损失函数下同时训练图像和文本的条件似然性,该损失函数通过扩散变换器的两个分支进行反向传播。所得到的模型具有高度的灵活性,能够执行广泛的任务,包括图像生成、描述和视觉问答。我们的模型在与最近统一的图像理解和生成模型的性能上具有竞争力,这表明多模态扩散建模作为一种替代自回归下个词预测模型的有前途的替代方案的潜力。