LLM2D

摘要

arXiv:2504.03970v1 类型: cross 摘要：我们引入了VideoComp，这是一个基准和学习框架，旨在推进视频-文本组成性的理解，以改善视觉-语言模型（VLMs）在精细时间对齐方面的表现。与专注于静态图像-文本组成性或孤立单个事件视频的现有基准不同，我们的基准针对的是连续多事件视频中的时间对齐。借助具有时间局部事件描述的视频-文本数据集（例如ActivityNet-Captions、YouCook2），我们构建了两个组成性基准：ActivityNet-Comp和YouCook2-Comp。我们创建了具有细微时间中断的具有挑战性的负样本，如内容重排、动作词替换、部分描述和组合中断。这些基准全面测试了模型在扩展连贯的视频-文本序列中的组成性敏感性。为了提高模型性能，我们提出了一种分层成对偏好损失，该损失增强了与时间准确配对的对齐，并逐渐惩罚越来越多中断的配对，从而鼓励细致的组成性学习。为了缓解密集标注视频数据的有限可用性，我们引入了一种预训练策略，将短视频-描述片段串联起来以模拟多事件序列。我们在我们的基准上评估了视频-文本基础模型和大型多模态模型（LMMs），识别了组成性的优势和需要改进的方面。总体而言，我们的工作提供了一个全面的框架，用于评估和增强模型在实现精细时间一致的视频-文本对齐方面的能力。