摘要
arXiv:2411.16718v5 宣布类型: replace-cross
摘要:近期在文本生成视频模型如Sora、Gen-3、MovieGen和CogVideoX方面取得的进展正在推动合成视频生成的边界,这些模型已在机器人学、自主驾驶和娱乐等领域得到应用。随着这些模型的普及,各种评估生成视频质量的指标和基准也在出现。然而,这些指标强调了视觉质量和流畅性,而忽视了时间一致性和文本到视频的对齐,这对安全关键应用至关重要。为了解决这一差距,我们引入了NeuS-V,一种新的合成视频评价指标,使用神经符号形式验证技术严格评估文本到视频的对齐。我们的方法首先将提示转换为正式定义的时间逻辑(TL)规范,然后将生成的视频翻译成自动机表示。接下来,通过正式检查视频自动机与TL规范来评估文本到视频的对齐。此外,我们提出了一个时间扩展的提示数据集,以评估最先进的视频生成模型与我们的基准的性能。我们发现,NeuS-V在与现有指标相比时,与人类评价的相关性提高了5倍以上。我们的评估进一步表明,当前的视频生成模型在这些时间复杂的提示上表现不佳,突显了未来改进文本到视频生成能力的需求。