LLM2D
事后修复:基于神经符号反馈的文本到视频生成改进
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback
作者: Minkyu Choi, S P Sharan, Harsh Goel, Sahil Shah, Sandeep Chinchali
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.17180v2

摘要

arXiv:2504.17180v2 宣传类型: 替换-交叉 摘要:当前的文本到视频(T2V)生成模型由于其能够从文本提示中生成连贯的视频而越来越受欢迎。然而,当处理涉及多个对象或序列事件的较长、更复杂的提示时,这些模型往往难以生成在语义和时间上一致的视频。此外,与训练或微调相关的高昂计算成本使得直接改进变得不切实际。为了解决这些限制,我们提出了NeuS-E,一种新颖的无需训练的视频精炼流水线,该流水线利用神经符号反馈自动增强视频生成,实现了与提示的更好对齐。我们的方法首先通过分析正式的视频表示来推导出神经符号反馈,并指出语义不一致的事件、对象及其相应的帧。然后,这种反馈指导对原始视频的针对性编辑。在开源和专有T2V模型上的广泛实验表明,NeuS-E 通过将近40%显著增强了时间上的和逻辑上的对齐。