摘要
arXiv:2412.00596v2 通知类型: replace-cross
摘要:基于Transformer的扩散模型最近使得文本到视频(T2V)生成成为可能,但由于当前T2V模型在物理现实理解上的局限性和时间建模能力的不足,它们缺乏遵循现实世界常识和物理规则的能力。现有的解决方案要么是数据驱动的,要么需要额外的模型输入,但无法将T2V模型推广到分布外领域。本文中,我们提出了PhyT2V,这是一种新的数据无关的T2V技术,通过在T2V提示中启用链式思考和逆向推理,将当前T2V模型的视频生成能力扩展到分布外领域。我们的实验结果表明,PhyT2V将现有的T2V模型遵守现实世界物理规则的能力提高了2.3倍,并在T2V提示增强器的基础上实现了35%的改进。源代码可在https://github.com/pittisl/PhyT2V 获取。