LLM2D
VidCapBench:可控文本到视频生成的综合视频字幕基准测试
VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
作者: Xinlong Chen, Yuanxing Zhang, Chongling Rao, Yushuo Guan, Jiaheng Liu, Fuzheng Zhang, Chengru Song, Qiang Liu, Di Zhang, Tieniu Tan
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12782v1

摘要

arXiv:2502.12782v1 Announce Type: 新 摘要:可控制的文字到视频(T2V)模型的训练高度依赖于视频和字幕之间的对齐,然而现有的研究很少将视频字幕评估与T2V生成评估联系起来。本文介绍了VidCapBench,这是一种专门为T2V生成设计的视频字幕评估方案,不依赖于任何特定的字幕格式。VidCapBench采用数据标注流水线,结合专家模型标注和人工完善,将每个收集的视频与视频美学、内容、运动以及物理法则的关键信息关联起来。随后,VidCapBench将这些关键信息属性拆分为可自动评估和需要手动评估的子集,以满足敏捷开发的快速评估需求以及详尽验证的精确要求。通过对多种最先进的字幕生成模型进行评估,我们证明了VidCapBench在稳定性和全面性方面优于现有的视频字幕评估方法。使用现成的T2V模型进行验证表明,VidCapBench的评分与T2V质量评估指标之间存在显著的正相关,这表明VidCapBench可以为训练T2V模型提供有价值的指导。该项目可在 https://github.com/VidCapBench/VidCapBench 获取。