摘要
大型语言模型(LLM)的快速发展显著推动了多模态大型语言模型(LMM)的进步,尤其是在视觉语言任务方面。然而,现有的视频语言模型往往忽略精确的时间定位,并且难以处理不同长度的视频。我们介绍了TimeMarker,这是一种用于基于视频内容进行高质量对话的多功能视频-LLM,强调时间定位。TimeMarker集成了时间分隔符标记来增强时间感知能力,精确地标记视频中的特定时刻。它采用AnyLength机制进行动态帧采样和自适应标记合并,能够有效处理短视频和长视频。此外,TimeMarker利用包括进一步转换的时间相关视频问答数据集在内的各种数据集,以增强其时间理解能力。图像和交错数据也被用来进一步增强模型的语义感知能力。评估结果表明,TimeMarker在多个基准测试中取得了最先进的性能,在短视频和长视频类别中均表现出色。我们的项目页面位于\url{https://github.com/TimeMarker-LLM/TimeMarker/}。