LLM2D

摘要

扩散模型在文本到图像 (T2I) 和文本到视频 (T2V) 合成等生成任务中取得了令人瞩目的成果。然而，由于帧间的复杂时间依赖性，在 T2V 生成中实现精确的文本对齐仍然具有挑战性。现有的基于强化学习 (RL) 的方法虽然可以增强文本对齐，但往往需要可微分的奖励函数或仅限于有限的提示词，从而限制了其可扩展性和适用性。在本文中，我们提出了一种新颖的无梯度框架 Free$^2$Guide，该框架无需额外的模型训练即可将生成的视频与文本提示词对齐。利用路径积分控制的原理，Free$^2$Guide 使用不可微分的奖励函数来逼近扩散模型的引导，从而能够将强大的黑盒大型视觉语言模型 (LVLMs) 集成作为奖励模型。此外，我们的框架支持灵活地集成多个奖励模型，包括大规模基于图像的模型，以协同增强对齐，而不会产生大量的计算开销。我们证明了 Free$^2$Guide 显著改善了各个维度的文本对齐，并提高了生成视频的整体质量。