摘要
arXiv:2504.03970v2 通知类型: 更换交叉引用
摘要:我们引入了VideoComp,这是一种基准和学习框架,旨在促进视频-文本组成的理解,以提高视觉语言模型(VLMs)在细粒度时间对齐方面的表现。与现有专注于静态图像-文本组成的基准或孤立单事件视频的基准不同,我们的基准针对的是连续多事件视频的时间对齐。利用与事件时间局部化词幕相关的视频-文本数据集(例如,ActivityNet-Captions,YouCook2),我们构建了两个组合基准,即ActivityNet-Comp和YouCook2-Comp。我们创建了具有微妙时间干扰的具有挑战性的负样本,例如重新排列、动作词替换、部分标题描述和结合的干扰。这些基准全面测试了模型在扩展连贯视频-文本序列中的组成敏感性。为了改善模型性能,我们提出了一种分层成对偏好损失,该损失加强了时间准确的成对对齐,逐渐惩罚越来越多的干扰,鼓励细粒度的组成学习。为了缓解密集标注视频数据的有限可用性,我们引入了一种预训练策略,将短视频-标题对连接起来,模拟多事件序列。我们在我们的基准上评估了视频-文本基础模型和大型多模态模型(LMMs),识别出组成方面的优点和需要改进的领域。总体而言,我们的工作提供了一种全面的框架,用于评估和增强模型实现细粒度、时间一致的视频-文本对齐的能力。