LLM2D

摘要

arXiv:2503.20853v1 Announce Type: cross 摘要：能够理解并生成多种模态信息的多模态生成模型主要采用自回归（AR）方法，这些方法依次从左到右或从上到下处理标记。这些模型可以在图像、文本、视频和音频等多个领域完成各种任务，如图像字幕生成、问答和图像生成。在本文中，我们探索在联合文本和图像领域使用离散扩散模型作为统一的生成形式，这建立在它们在文本生成方面的近期成功之上。离散扩散模型相对于AR模型具有多种优势，包括对生成样本的质量和多样性的更好控制、在文本和图像领域进行联合多模态填充（跨两个领域的填充）的能力，以及在生成过程中的更大可控性。利用这些优势，我们提出了第一个统一多模态离散扩散（UniDisc）模型，它可以联合理解和生成文本和图像以完成多种下游任务。我们将UniDisc与多模态AR模型进行比较，在规模分析中展示了UniDisc在性能和推理时计算成本、增强可控制性、可编辑性、修复能力以及推理时间与生成质量之间的灵活权衡方面的优势。更多代码和额外的可视化结果可访问 https://unidisc.github.io。