LLM2D
面向形式验证的神经符号性文本到视频模型评估
Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification
作者: S P Sharan, Minkyu Choi, Sahil Shah, Harsh Goel, Mohammad Omama, Sandeep Chinchali
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2411.16718v5

摘要

arXiv:2411.16718v5 宣布类型: replace-cross 摘要:近期在文本生成视频模型如Sora、Gen-3、MovieGen和CogVideoX方面取得的进展正在推动合成视频生成的边界,这些模型已在机器人学、自主驾驶和娱乐等领域得到应用。随着这些模型的普及,各种评估生成视频质量的指标和基准也在出现。然而,这些指标强调了视觉质量和流畅性,而忽视了时间一致性和文本到视频的对齐,这对安全关键应用至关重要。为了解决这一差距,我们引入了NeuS-V,一种新的合成视频评价指标,使用神经符号形式验证技术严格评估文本到视频的对齐。我们的方法首先将提示转换为正式定义的时间逻辑(TL)规范,然后将生成的视频翻译成自动机表示。接下来,通过正式检查视频自动机与TL规范来评估文本到视频的对齐。此外,我们提出了一个时间扩展的提示数据集,以评估最先进的视频生成模型与我们的基准的性能。我们发现,NeuS-V在与现有指标相比时,与人类评价的相关性提高了5倍以上。我们的评估进一步表明,当前的视频生成模型在这些时间复杂的提示上表现不佳,突显了未来改进文本到视频生成能力的需求。