摘要
arXiv:2504.17180v2 宣传类型: 替换-交叉
摘要:当前的文本到视频(T2V)生成模型由于其能够从文本提示中生成连贯的视频而越来越受欢迎。然而,当处理涉及多个对象或序列事件的较长、更复杂的提示时,这些模型往往难以生成在语义和时间上一致的视频。此外,与训练或微调相关的高昂计算成本使得直接改进变得不切实际。为了解决这些限制,我们提出了NeuS-E,一种新颖的无需训练的视频精炼流水线,该流水线利用神经符号反馈自动增强视频生成,实现了与提示的更好对齐。我们的方法首先通过分析正式的视频表示来推导出神经符号反馈,并指出语义不一致的事件、对象及其相应的帧。然后,这种反馈指导对原始视频的针对性编辑。在开源和专有T2V模型上的广泛实验表明,NeuS-E 通过将近40%显著增强了时间上的和逻辑上的对齐。