LLM2D

摘要

Sora、Gen-3、MovieGen和CogVideoX等文本到视频模型的最新进展正在突破合成视频生成的界限，并在机器人技术、自动驾驶和娱乐等领域得到应用。随着这些模型的普及，涌现出各种评估生成视频质量的指标和基准。然而，这些指标强调视觉质量和流畅性，而忽略了时间保真度和文本到视频的对齐，这对于安全关键型应用至关重要。为了解决这一差距，我们引入了NeuS-V，这是一种新颖的合成视频评估指标，它使用神经符号形式化验证技术严格评估文本到视频的对齐。我们的方法首先将提示转换为形式化定义的时间逻辑（TL）规范，并将生成的视频转换为自动机表示。然后，通过正式检查视频自动机是否符合TL规范来评估文本到视频的对齐。此外，我们提供了一个包含时间扩展提示的数据集，以评估最先进的视频生成模型与我们的基准。我们发现，与现有指标相比，NeuS-V与人工评估的相关性提高了5倍以上。我们的评估进一步表明，当前的视频生成模型在这些时间上复杂的提示方面表现不佳，突出了未来改进文本到视频生成能力的必要性。