LLM2D
TimeSearch:具有聚光灯和反射的层次视频搜索以实现人类似的长视频理解
TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding
作者: Junwen Pan, Rui Zhang, Xin Wan, Yuan Zhang, Ming Lu, Qi She
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01407v1

摘要

arXiv:2504.01407v1 声称类型: cross 摘要: 大型视频语言模型(LVLMs)在各种视频语言任务中表现出色。然而,当处理长视频时,由于涉及大量的视频帧,它们会遇到重大挑战。通过时空下采样长视频可能导致视觉错觉,使准确解释长视频变得困难。受人类分层时间搜索策略的启发,我们提出了一种名为**TimeSearch** 的新框架,使 LVLMs 能以类似人类的方式理解长视频。TimeSearch 将两种类似人类的原始概念整合到了一个统一的自回归 LVLM 中:1)**Spotlight** 通过时间增强帧表示(TAFR)高效地识别相关的时空事件,明确地将视觉特征与时间戳绑定;2)**Reflection** 评估所识别事件的正确性,利用 LVLM 内在的时间自我反思能力。TimeSearch 逐步探索关键事件,并基于反思信心优先进行时间搜索。在具有挑战性的长视频基准上的广泛实验证实,TimeSearch 显著优于之前的最佳方法,在 LVBench 上准确率从 41.8% 提高到 51.5%。此外,时间定位实验表明,合适的 TAFR 足以在一种简单但通用的方式中有效地激发 LVLM 的令人惊讶的时间定位能力,这在 Charades-STA 上的 mIoU 上提高了 11.8%。代码将公开发布。