LLM2D

摘要

arXiv:2504.01407v1 声称类型: cross 摘要: 大型视频语言模型（LVLMs）在各种视频语言任务中表现出色。然而，当处理长视频时，由于涉及大量的视频帧，它们会遇到重大挑战。通过时空下采样长视频可能导致视觉错觉，使准确解释长视频变得困难。受人类分层时间搜索策略的启发，我们提出了一种名为**TimeSearch** 的新框架，使 LVLMs 能以类似人类的方式理解长视频。TimeSearch 将两种类似人类的原始概念整合到了一个统一的自回归 LVLM 中：1）**Spotlight** 通过时间增强帧表示（TAFR）高效地识别相关的时空事件，明确地将视觉特征与时间戳绑定；2）**Reflection** 评估所识别事件的正确性，利用 LVLM 内在的时间自我反思能力。TimeSearch 逐步探索关键事件，并基于反思信心优先进行时间搜索。在具有挑战性的长视频基准上的广泛实验证实，TimeSearch 显著优于之前的最佳方法，在 LVBench 上准确率从 41.8% 提高到 51.5%。此外，时间定位实验表明，合适的 TAFR 足以在一种简单但通用的方式中有效地激发 LVLM 的令人惊讶的时间定位能力，这在 Charades-STA 上的 mIoU 上提高了 11.8%。代码将公开发布。