LLM2D

摘要

arXiv:2411.16718v5 宣布类型: replace-cross 摘要：近期在文本生成视频模型如Sora、Gen-3、MovieGen和CogVideoX方面取得的进展正在推动合成视频生成的边界，这些模型已在机器人学、自主驾驶和娱乐等领域得到应用。随着这些模型的普及，各种评估生成视频质量的指标和基准也在出现。然而，这些指标强调了视觉质量和流畅性，而忽视了时间一致性和文本到视频的对齐，这对安全关键应用至关重要。为了解决这一差距，我们引入了NeuS-V，一种新的合成视频评价指标，使用神经符号形式验证技术严格评估文本到视频的对齐。我们的方法首先将提示转换为正式定义的时间逻辑（TL）规范，然后将生成的视频翻译成自动机表示。接下来，通过正式检查视频自动机与TL规范来评估文本到视频的对齐。此外，我们提出了一个时间扩展的提示数据集，以评估最先进的视频生成模型与我们的基准的性能。我们发现，NeuS-V在与现有指标相比时，与人类评价的相关性提高了5倍以上。我们的评估进一步表明，当前的视频生成模型在这些时间复杂的提示上表现不佳，突显了未来改进文本到视频生成能力的需求。