摘要
arXiv:2504.03970v1 类型: cross
摘要:我们引入了VideoComp,这是一个基准和学习框架,旨在推进视频-文本组成性的理解,以改善视觉-语言模型(VLMs)在精细时间对齐方面的表现。与专注于静态图像-文本组成性或孤立单个事件视频的现有基准不同,我们的基准针对的是连续多事件视频中的时间对齐。借助具有时间局部事件描述的视频-文本数据集(例如ActivityNet-Captions、YouCook2),我们构建了两个组成性基准:ActivityNet-Comp和YouCook2-Comp。我们创建了具有细微时间中断的具有挑战性的负样本,如内容重排、动作词替换、部分描述和组合中断。这些基准全面测试了模型在扩展连贯的视频-文本序列中的组成性敏感性。为了提高模型性能,我们提出了一种分层成对偏好损失,该损失增强了与时间准确配对的对齐,并逐渐惩罚越来越多中断的配对,从而鼓励细致的组成性学习。为了缓解密集标注视频数据的有限可用性,我们引入了一种预训练策略,将短视频-描述片段串联起来以模拟多事件序列。我们在我们的基准上评估了视频-文本基础模型和大型多模态模型(LMMs),识别了组成性的优势和需要改进的方面。总体而言,我们的工作提供了一个全面的框架,用于评估和增强模型在实现精细时间一致的视频-文本对齐方面的能力。