LLM2D
SF2T: 自监督视频LLM的片段微调以实现细粒度理解
SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding
作者: Yangliu Hu, Zikai Song, Na Feng, Yawei Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07745v1

摘要

arXiv:2504.07745v1 宣告类型:交叉学科 摘要:基于视频的大语言模型(Video-LLMs)近年来在多模态LLMs的进步推动下取得了显著进展。尽管这些模型在提供视频的整体描述方面表现出色,但在视觉动态和视频细节询问等方面却难以实现精细理解。为解决这些不足,我们发现,通过在自监督片段任务上微调Video-LLMs,极大地提高了它们的精细视频理解能力。因此,我们提出了两个关键贡献:(1)自监督片段微调(SF$^2$T),这是一种新颖且易于实现的微调方法,利用视频的丰富内在特性进行训练,同时提高了Video-LLMs的精细理解能力。此外,它减轻了研究人员的工作负担,并巧妙地规避了自然语言的局限性,自然语言往往无法捕捉视频中的复杂时空变化;(2)一个用于严格评估Video-LLMs在场景和片段级别性能的新基准数据集,即FineVidBench,它为全面评估其能力提供了评估标准。我们在多个模型上进行了评估,验证了SF$^2$T的有效性。实验结果表明,我们的方法提高了它们捕获和解释时空细节的能力。