LLM2D
理解任意视频中的相机运动
Towards Understanding Camera Motions in Any Video
作者: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15376v1

摘要

arXiv:2504.15376v1 Announce Type: cross 摘要:我们介绍了CameraBench,这是一个大型数据集和基准测试,旨在评估和提高对摄像机运动理解的能力。CameraBench包含约3000个多样化的互联网视频,这些视频经过专家通过严格多阶段质量控制过程进行注释。我们的成果之一是与电影制作人合作设计的摄像机运动基本类型学。例如,我们发现一些运动,如“跟随”(或跟踪),需要理解场景内容(如移动的主题)。我们进行了一项大规模的人类研究来量化人类注释的表现,揭示出领域专业知识和基于教程的培训可以显著提高准确性。例如,一名新手可能会将“推近”(一个内参的变化)与“前进移动”(一个外参的变化)混淆,但可以通过培训来区分这两者。使用CameraBench,我们评估了Structure-from-Motion(SfM)和Video-Language Models(VLMs),发现SfM模型在捕获依赖于场景内容的语义基本类型方面遇到困难,而VLMs在捕获需要精确估计轨迹的几何基本类型方面存在困难。然后,我们在CameraBench上微调了一个生成性VLM,以实现两者的最优结合,并展示了其应用,包括运动增强的注释、视频问答以及视频-文本检索。我们希望通过我们的类型学、基准测试和教程推动未来的工作,向着理解任何视频中的摄像机运动的终极目标迈进。