摘要
arXiv:2501.05510v2 通知类型: replace-cross
摘要: 时间意识,即根据问题提出时的时间戳进行动态推理的能力,是离线和在线视频LLM之间的重要区别。与依赖完整视频进行静态、事后分析的离线模型不同,在线模型会逐步处理视频流,并根据问题提出的时间戳动态调整其响应。尽管时间意识的重要性不容忽视,但在现有基准测试中仍未得到充分评估。为填补这一空白,我们提出了OVO-Bench(Online-VideO-Benchmark),这是一个新颖的视频基准,强调时间戳对于高级在线视频理解能力基准测试的重要性。OVO-Bench 在三个不同的场景下评估视频LLM根据特定时间戳推理和响应事件的能力:(1)反向追踪:回溯到过去事件以回答问题。(2)实时理解:理解和回应当前时间戳下发生的事件。(3)向前主动响应:延迟响应,直到有足够的未来信息以准确回答问题为止。OVO-Bench 包含 12 项任务,包括 644 个独特视频和大约 2,800 个人工精心编写的细粒度元注释,具有准确的时间戳。我们结合了自动生成管道和人工编辑。凭借这些高质量样本,我们进一步开发了一个评估管道,系统地查询视频LLM沿视频时间轴的响应。对九种视频LLM的评估显示,尽管在传统基准测试上取得了进步,当前模型在在线视频理解方面仍然存在困难,并与人类代理之间存在显著差距。我们希望OVO-Bench 能够推动视频LLM的发展,并激发在线视频推理的未来研究。我们提供了基准和代码,可以在 https://github.com/JoeLeelyf/OVO-Bench 访问。