LLM2D

摘要

arXiv:2412.05818v2 更新类型: 替换-交叉摘要：大型多模态模型（LMMs）在多模态理解和生成方面展示了令人印象深刻的性能，推动了文本到图像生成的进展。然而，在合成场景中实现LMMs的准确文本-图像对齐仍然是一个挑战。现有的方法，如多步生成的布局规划和从人类反馈或AI反馈中学习，高度依赖于提示工程、昂贵的人工注释以及持续升级，限制了其灵活性和可扩展性。在本文中，我们引入了一种模型无关的迭代自我提升框架（SILMM），该框架能够使LMMs提供有帮助且可扩展的自我反馈，并通过直接偏好优化（DPO）优化文本-图像对齐。DPO可以很容易地应用于使用离散视觉令牌作为中间图像表示的LMMs；而对于使用连续视觉特征的LMMs，则不太适用，因为获取生成概率是一个挑战。为了使SILMM适应具有连续特征的LMMs，我们提出了一种多样性机制以获得多样的表示，并提出了一种基于核函数的连续DPO进行对齐。在三个合成文本到图像生成基准上的广泛实验验证了SILMM的有效性和优越性，T2I-CompBench++上的改进超过了30%，而在DPG-Bench上的改进约为20%。