LLM2D

摘要

arXiv:2504.03970v2 通知类型: 更换交叉引用摘要：我们引入了VideoComp，这是一种基准和学习框架，旨在促进视频-文本组成的理解，以提高视觉语言模型（VLMs）在细粒度时间对齐方面的表现。与现有专注于静态图像-文本组成的基准或孤立单事件视频的基准不同，我们的基准针对的是连续多事件视频的时间对齐。利用与事件时间局部化词幕相关的视频-文本数据集（例如，ActivityNet-Captions，YouCook2），我们构建了两个组合基准，即ActivityNet-Comp和YouCook2-Comp。我们创建了具有微妙时间干扰的具有挑战性的负样本，例如重新排列、动作词替换、部分标题描述和结合的干扰。这些基准全面测试了模型在扩展连贯视频-文本序列中的组成敏感性。为了改善模型性能，我们提出了一种分层成对偏好损失，该损失加强了时间准确的成对对齐，逐渐惩罚越来越多的干扰，鼓励细粒度的组成学习。为了缓解密集标注视频数据的有限可用性，我们引入了一种预训练策略，将短视频-标题对连接起来，模拟多事件序列。我们在我们的基准上评估了视频-文本基础模型和大型多模态模型（LMMs），识别出组成方面的优点和需要改进的领域。总体而言，我们的工作提供了一种全面的框架，用于评估和增强模型实现细粒度、时间一致的视频-文本对齐的能力。