LLM2D

摘要

arXiv:2504.02949v1 类型: cross 摘要: 在本文中，我们介绍了VARGPT-v1.1，这是一个基于我们先前框架VARGPT的先进统一视觉自回归模型。该模型保留了视觉理解的下一步预测和图像合成的下一步生成的双重范式。具体而言，VARGPT-v1.1 结合了以下内容：(1) 一种新颖的训练策略，将迭代视觉指令调优与通过直接偏好优化 (DPO) 的强化学习相结合，(2) 包含830万对视觉生成指令的扩展训练语料库，(3) 升级了使用Qwen2的语言模型骨干，(4) 增强了图像生成分辨率，以及 (5) 在不改变架构的情况下具备新兴的图像编辑能力。这些进步使VARGPT-v1.1在多模态理解和文本到图像指令跟随任务中达到了最先进的性能，展示了在理解和生成指标上显著的改进。值得注意的是，通过视觉指令调优，模型获得了图像编辑功能，同时保持了与前代模型的架构一致性，这揭示了统一的视觉理解、生成和编辑的潜力。我们的研究结果表明，设计良好的统一视觉自回归模型可以有效地采用大型语言模型（LLMs）的灵活训练策略，展现了其广阔的扩展性。有关的代码库和模型权重可以在https://github.com/VARGPT-family/VARGPT-v1.1公开获取。