LLM2D

摘要

arXiv:2502.12782v1 Announce Type: 新摘要：可控制的文字到视频（T2V）模型的训练高度依赖于视频和字幕之间的对齐，然而现有的研究很少将视频字幕评估与T2V生成评估联系起来。本文介绍了VidCapBench，这是一种专门为T2V生成设计的视频字幕评估方案，不依赖于任何特定的字幕格式。VidCapBench采用数据标注流水线，结合专家模型标注和人工完善，将每个收集的视频与视频美学、内容、运动以及物理法则的关键信息关联起来。随后，VidCapBench将这些关键信息属性拆分为可自动评估和需要手动评估的子集，以满足敏捷开发的快速评估需求以及详尽验证的精确要求。通过对多种最先进的字幕生成模型进行评估，我们证明了VidCapBench在稳定性和全面性方面优于现有的视频字幕评估方法。使用现成的T2V模型进行验证表明，VidCapBench的评分与T2V质量评估指标之间存在显著的正相关，这表明VidCapBench可以为训练T2V模型提供有价值的指导。该项目可在 https://github.com/VidCapBench/VidCapBench 获取。