LLM2D

摘要

arXiv:2501.05510v2 通知类型: replace-cross 摘要: 时间意识，即根据问题提出时的时间戳进行动态推理的能力，是离线和在线视频LLM之间的重要区别。与依赖完整视频进行静态、事后分析的离线模型不同，在线模型会逐步处理视频流，并根据问题提出的时间戳动态调整其响应。尽管时间意识的重要性不容忽视，但在现有基准测试中仍未得到充分评估。为填补这一空白，我们提出了OVO-Bench（Online-VideO-Benchmark），这是一个新颖的视频基准，强调时间戳对于高级在线视频理解能力基准测试的重要性。OVO-Bench 在三个不同的场景下评估视频LLM根据特定时间戳推理和响应事件的能力：（1）反向追踪：回溯到过去事件以回答问题。（2）实时理解：理解和回应当前时间戳下发生的事件。（3）向前主动响应：延迟响应，直到有足够的未来信息以准确回答问题为止。OVO-Bench 包含 12 项任务，包括 644 个独特视频和大约 2,800 个人工精心编写的细粒度元注释，具有准确的时间戳。我们结合了自动生成管道和人工编辑。凭借这些高质量样本，我们进一步开发了一个评估管道，系统地查询视频LLM沿视频时间轴的响应。对九种视频LLM的评估显示，尽管在传统基准测试上取得了进步，当前模型在在线视频理解方面仍然存在困难，并与人类代理之间存在显著差距。我们希望OVO-Bench 能够推动视频LLM的发展，并激发在线视频推理的未来研究。我们提供了基准和代码，可以在 https://github.com/JoeLeelyf/OVO-Bench 访问。