摘要
arXiv:2504.15376v1 Announce Type: cross
摘要:我们介绍了CameraBench,这是一个大型数据集和基准测试,旨在评估和提高对摄像机运动理解的能力。CameraBench包含约3000个多样化的互联网视频,这些视频经过专家通过严格多阶段质量控制过程进行注释。我们的成果之一是与电影制作人合作设计的摄像机运动基本类型学。例如,我们发现一些运动,如“跟随”(或跟踪),需要理解场景内容(如移动的主题)。我们进行了一项大规模的人类研究来量化人类注释的表现,揭示出领域专业知识和基于教程的培训可以显著提高准确性。例如,一名新手可能会将“推近”(一个内参的变化)与“前进移动”(一个外参的变化)混淆,但可以通过培训来区分这两者。使用CameraBench,我们评估了Structure-from-Motion(SfM)和Video-Language Models(VLMs),发现SfM模型在捕获依赖于场景内容的语义基本类型方面遇到困难,而VLMs在捕获需要精确估计轨迹的几何基本类型方面存在困难。然后,我们在CameraBench上微调了一个生成性VLM,以实现两者的最优结合,并展示了其应用,包括运动增强的注释、视频问答以及视频-文本检索。我们希望通过我们的类型学、基准测试和教程推动未来的工作,向着理解任何视频中的摄像机运动的终极目标迈进。