LLM2D

摘要

arXiv:2504.15376v1 Announce Type: cross 摘要：我们介绍了CameraBench，这是一个大型数据集和基准测试，旨在评估和提高对摄像机运动理解的能力。CameraBench包含约3000个多样化的互联网视频，这些视频经过专家通过严格多阶段质量控制过程进行注释。我们的成果之一是与电影制作人合作设计的摄像机运动基本类型学。例如，我们发现一些运动，如“跟随”（或跟踪），需要理解场景内容（如移动的主题）。我们进行了一项大规模的人类研究来量化人类注释的表现，揭示出领域专业知识和基于教程的培训可以显著提高准确性。例如，一名新手可能会将“推近”（一个内参的变化）与“前进移动”（一个外参的变化）混淆，但可以通过培训来区分这两者。使用CameraBench，我们评估了Structure-from-Motion（SfM）和Video-Language Models（VLMs），发现SfM模型在捕获依赖于场景内容的语义基本类型方面遇到困难，而VLMs在捕获需要精确估计轨迹的几何基本类型方面存在困难。然后，我们在CameraBench上微调了一个生成性VLM，以实现两者的最优结合，并展示了其应用，包括运动增强的注释、视频问答以及视频-文本检索。我们希望通过我们的类型学、基准测试和教程推动未来的工作，向着理解任何视频中的摄像机运动的终极目标迈进。