摘要
arXiv:2504.04051v1 类型: cross
摘要: 生成模型在包括文本到视频生成在内的多种AI任务中取得了显著进展,例如Video LDM和Stable Video Diffusion等模型可以从文本指令生成逼真的电影级视频。尽管这些进展显著,但当前的文本到视频模型仍然在可靠地遵循人类命令方面面临着根本性挑战,特别是在遵守简单的数值约束方面。在本文中,我们提出了T2VCountBench,这是一个专门用于评估截至2025年的SOTA文本到视频模型的计数能力的专业基准。我们的基准采用严格的人类评估来测量生成对象的数量,并涵盖了多种不同的生成器,包括开源和商业模型。广泛的实验表明,现有所有模型在基本的数值任务上都存在问题,几乎总是无法生成包含9个或更少对象的视频。此外,我们全面的消融研究探讨了视频风格、时间动态和多语言输入等因素可能如何影响计数性能。我们还研究了提示细化技术,并表明将任务分解为更小的子任务并不能轻易解决这些限制。我们的研究结果突出了当前文本到视频生成中存在的重要挑战,并为未来旨在提高对基本数值约束遵守的研究提供了见解。