LLM2D
PhyT2V:由LLM引导的迭代自我修 refinement 物理接地的文本到视频生成
PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
作者: Qiyao Xue, Xiangyu Yin, Boyuan Yang, Wei Gao
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2412.00596v2

摘要

arXiv:2412.00596v2 通知类型: replace-cross 摘要:基于Transformer的扩散模型最近使得文本到视频(T2V)生成成为可能,但由于当前T2V模型在物理现实理解上的局限性和时间建模能力的不足,它们缺乏遵循现实世界常识和物理规则的能力。现有的解决方案要么是数据驱动的,要么需要额外的模型输入,但无法将T2V模型推广到分布外领域。本文中,我们提出了PhyT2V,这是一种新的数据无关的T2V技术,通过在T2V提示中启用链式思考和逆向推理,将当前T2V模型的视频生成能力扩展到分布外领域。我们的实验结果表明,PhyT2V将现有的T2V模型遵守现实世界物理规则的能力提高了2.3倍,并在T2V提示增强器的基础上实现了35%的改进。源代码可在https://github.com/pittisl/PhyT2V 获取。