摘要
arXiv:2505.04946v1 Announce Type: cross
摘要:多亏了近期在可扩展深度架构和大规模预训练方面取得的进展,文本到视频生成已经在广泛风格下实现了前所未有的能力,生产出高质量、遵循指令的内容,从而在广告、娱乐和教育等领域得到了应用。然而,这些模型在渲染精确的屏幕文本,如字幕或数学公式方面的能力尚未得到充分测试,给需要精确文本准确性的应用程序带来了重大挑战。在本文中,我们引入了T2VTextBench,这是首个专门用于评估文本到视频模型中屏幕文本保真度和时间一致性的手工评估基准。我们的提示套件将复杂的文本字符串与动态场景变化结合起来,测试每个模型在帧间保持详细指令的能力。我们评估了十个最先进的系统,从开源解决方案到商业产品一应俱全,并发现大多数系统在生成可读性和一致性文本方面存在困难。这些结果突显了当前视频生成器中的关键差距,并为未来旨在改进视频合成中文本操控的研究指明了方向。