LLM2D

摘要

大型语言模型（LLM）的快速发展显著推动了多模态大型语言模型（LMM）的进步，尤其是在视觉语言任务方面。然而，现有的视频语言模型往往忽略精确的时间定位，并且难以处理不同长度的视频。我们介绍了TimeMarker，这是一种用于基于视频内容进行高质量对话的多功能视频-LLM，强调时间定位。TimeMarker集成了时间分隔符标记来增强时间感知能力，精确地标记视频中的特定时刻。它采用AnyLength机制进行动态帧采样和自适应标记合并，能够有效处理短视频和长视频。此外，TimeMarker利用包括进一步转换的时间相关视频问答数据集在内的各种数据集，以增强其时间理解能力。图像和交错数据也被用来进一步增强模型的语义感知能力。评估结果表明，TimeMarker在多个基准测试中取得了最先进的性能，在短视频和长视频类别中均表现出色。我们的项目页面位于\url{https://github.com/TimeMarker-LLM/TimeMarker/}。