LLM2D
OVO-Bench: 你的视频大语言模型与真实世界在线视频理解还相差多远?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
作者: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2501.05510v2

摘要

arXiv:2501.05510v2 通知类型: replace-cross 摘要: 时间意识,即根据问题提出时的时间戳进行动态推理的能力,是离线和在线视频LLM之间的重要区别。与依赖完整视频进行静态、事后分析的离线模型不同,在线模型会逐步处理视频流,并根据问题提出的时间戳动态调整其响应。尽管时间意识的重要性不容忽视,但在现有基准测试中仍未得到充分评估。为填补这一空白,我们提出了OVO-Bench(Online-VideO-Benchmark),这是一个新颖的视频基准,强调时间戳对于高级在线视频理解能力基准测试的重要性。OVO-Bench 在三个不同的场景下评估视频LLM根据特定时间戳推理和响应事件的能力:(1)反向追踪:回溯到过去事件以回答问题。(2)实时理解:理解和回应当前时间戳下发生的事件。(3)向前主动响应:延迟响应,直到有足够的未来信息以准确回答问题为止。OVO-Bench 包含 12 项任务,包括 644 个独特视频和大约 2,800 个人工精心编写的细粒度元注释,具有准确的时间戳。我们结合了自动生成管道和人工编辑。凭借这些高质量样本,我们进一步开发了一个评估管道,系统地查询视频LLM沿视频时间轴的响应。对九种视频LLM的评估显示,尽管在传统基准测试上取得了进步,当前模型在在线视频理解方面仍然存在困难,并与人类代理之间存在显著差距。我们希望OVO-Bench 能够推动视频LLM的发展,并激发在线视频推理的未来研究。我们提供了基准和代码,可以在 https://github.com/JoeLeelyf/OVO-Bench 访问。