LLM2D

摘要

现有的视频语料库时刻检索 (VCMR) 仅限于粗粒度理解，这阻碍了在给定细粒度查询时进行精确的视频时刻定位。在本文中，我们提出了一个更具挑战性的细粒度 VCMR 基准，要求方法从语料库中定位与其他部分匹配的候选者最佳匹配的时刻。为了提高数据集构建效率并保证高质量的数据标注，我们提出了 VERIFIED，一个自动视频文本标注管道，用于生成具有可靠细粒度统计数据和动态数据的标题。具体来说，我们利用我们提出的统计数据和动态增强字幕模块，借助大型语言模型 (LLM) 和大型多模态模型 (LMM) 为每个视频生成多样化的细粒度字幕。为了滤除由 LLM 幻觉引起的不准确标注，我们提出了一个细粒度感知噪声评估器，其中我们使用受干扰的硬负样本增强对比和匹配损失来微调视频基础模型。使用 VERIFIED，我们构建了一个更具挑战性的细粒度 VCMR 基准，其中包含 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG，它们展示了高水平的标注质量。我们在提出的数据集上评估了几个最先进的 VCMR 模型，结果表明 VCMR 中的细粒度视频理解仍有很大的提升空间。代码和数据集位于 \href{https://github.com/hlchen23/VERIFIED}{https://github.com/hlchen23/VERIFIED}。