摘要
arXiv:2412.05818v2 更新类型: 替换-交叉
摘要:大型多模态模型(LMMs)在多模态理解和生成方面展示了令人印象深刻的性能,推动了文本到图像生成的进展。然而,在合成场景中实现LMMs的准确文本-图像对齐仍然是一个挑战。现有的方法,如多步生成的布局规划和从人类反馈或AI反馈中学习,高度依赖于提示工程、昂贵的人工注释以及持续升级,限制了其灵活性和可扩展性。在本文中,我们引入了一种模型无关的迭代自我提升框架(SILMM),该框架能够使LMMs提供有帮助且可扩展的自我反馈,并通过直接偏好优化(DPO)优化文本-图像对齐。DPO可以很容易地应用于使用离散视觉令牌作为中间图像表示的LMMs;而对于使用连续视觉特征的LMMs,则不太适用,因为获取生成概率是一个挑战。为了使SILMM适应具有连续特征的LMMs,我们提出了一种多样性机制以获得多样的表示,并提出了一种基于核函数的连续DPO进行对齐。在三个合成文本到图像生成基准上的广泛实验验证了SILMM的有效性和优越性,T2I-CompBench++上的改进超过了30%,而在DPG-Bench上的改进约为20%。