LLM2D

摘要

arXiv:2504.17180v2 宣传类型: 替换-交叉摘要：当前的文本到视频（T2V）生成模型由于其能够从文本提示中生成连贯的视频而越来越受欢迎。然而，当处理涉及多个对象或序列事件的较长、更复杂的提示时，这些模型往往难以生成在语义和时间上一致的视频。此外，与训练或微调相关的高昂计算成本使得直接改进变得不切实际。为了解决这些限制，我们提出了NeuS-E，一种新颖的无需训练的视频精炼流水线，该流水线利用神经符号反馈自动增强视频生成，实现了与提示的更好对齐。我们的方法首先通过分析正式的视频表示来推导出神经符号反馈，并指出语义不一致的事件、对象及其相应的帧。然后，这种反馈指导对原始视频的针对性编辑。在开源和专有T2V模型上的广泛实验表明，NeuS-E 通过将近40%显著增强了时间上的和逻辑上的对齐。