摘要
扩散模型在文本到图像 (T2I) 和文本到视频 (T2V) 合成等生成任务中取得了令人瞩目的成果。然而,由于帧间的复杂时间依赖性,在 T2V 生成中实现精确的文本对齐仍然具有挑战性。现有的基于强化学习 (RL) 的方法虽然可以增强文本对齐,但往往需要可微分的奖励函数或仅限于有限的提示词,从而限制了其可扩展性和适用性。在本文中,我们提出了一种新颖的无梯度框架 Free$^2$Guide,该框架无需额外的模型训练即可将生成的视频与文本提示词对齐。利用路径积分控制的原理,Free$^2$Guide 使用不可微分的奖励函数来逼近扩散模型的引导,从而能够将强大的黑盒大型视觉语言模型 (LVLMs) 集成作为奖励模型。此外,我们的框架支持灵活地集成多个奖励模型,包括大规模基于图像的模型,以协同增强对齐,而不会产生大量的计算开销。我们证明了 Free$^2$Guide 显著改善了各个维度的文本对齐,并提高了生成视频的整体质量。