LLM2D

摘要

arXiv:2412.00596v2 通知类型: replace-cross 摘要：基于Transformer的扩散模型最近使得文本到视频（T2V）生成成为可能，但由于当前T2V模型在物理现实理解上的局限性和时间建模能力的不足，它们缺乏遵循现实世界常识和物理规则的能力。现有的解决方案要么是数据驱动的，要么需要额外的模型输入，但无法将T2V模型推广到分布外领域。本文中，我们提出了PhyT2V，这是一种新的数据无关的T2V技术，通过在T2V提示中启用链式思考和逆向推理，将当前T2V模型的视频生成能力扩展到分布外领域。我们的实验结果表明，PhyT2V将现有的T2V模型遵守现实世界物理规则的能力提高了2.3倍，并在T2V提示增强器的基础上实现了35%的改进。源代码可在https://github.com/pittisl/PhyT2V 获取。