摘要
arXiv:2505.09568v1 类型: cross
摘要: 将图像理解与生成统一起来在最近的多模态模型研究中得到了广泛关注。虽然图像理解的设计选择已经得到了广泛的研究,但在包含图像生成的统一框架中,最优的模型架构和训练方法仍然未得到充分探索。受自回归模型和扩散模型在高质量生成和扩展性方面强大潜力的启发,我们对它们在统一多模态设置中的使用进行了全面研究,重点在于图像表示、建模目标和训练策略。基于这些研究,我们提出了一个新颖的方法,该方法使用扩散变换器生成语义丰富的CLIP图像特征,与传统的基于VAE的表示法形成对比。这一设计既提高了训练效率,又提升了生成质量。此外,我们展示了统一模型的顺序预训练策略——首先在图像理解方面进行训练,然后在图像生成方面进行训练——提供了一种实用的优势,既能保持图像理解能力,又能发展强大的图像生成能力。最后,我们精心构建了一个高质量的指令调优数据集BLIP3o-60k,用于图像生成,通过对各种场景、对象、人体手势等多种描述进行提示GPT-4o 而生成。依托我们创新的模型设计、训练方法和数据集,我们开发了BLIP3-o,一系列状态最前沿的统一多模态模型。BLIP3-o 在涵盖图像理解和生成任务的大多数流行基准测试中实现了卓越的性能。为了促进未来研究,我们全面开源了我们的模型,包括代码、模型权重、训练脚本以及预训练和指令调优数据集。