摘要
arXiv:2502.12782v1 Announce Type: 新
摘要:可控制的文字到视频(T2V)模型的训练高度依赖于视频和字幕之间的对齐,然而现有的研究很少将视频字幕评估与T2V生成评估联系起来。本文介绍了VidCapBench,这是一种专门为T2V生成设计的视频字幕评估方案,不依赖于任何特定的字幕格式。VidCapBench采用数据标注流水线,结合专家模型标注和人工完善,将每个收集的视频与视频美学、内容、运动以及物理法则的关键信息关联起来。随后,VidCapBench将这些关键信息属性拆分为可自动评估和需要手动评估的子集,以满足敏捷开发的快速评估需求以及详尽验证的精确要求。通过对多种最先进的字幕生成模型进行评估,我们证明了VidCapBench在稳定性和全面性方面优于现有的视频字幕评估方法。使用现成的T2V模型进行验证表明,VidCapBench的评分与T2V质量评估指标之间存在显著的正相关,这表明VidCapBench可以为训练T2V模型提供有价值的指导。该项目可在 https://github.com/VidCapBench/VidCapBench 获取。