LLM2D

摘要

arXiv:2504.07745v1 宣告类型：交叉学科摘要：基于视频的大语言模型（Video-LLMs）近年来在多模态LLMs的进步推动下取得了显著进展。尽管这些模型在提供视频的整体描述方面表现出色，但在视觉动态和视频细节询问等方面却难以实现精细理解。为解决这些不足，我们发现，通过在自监督片段任务上微调Video-LLMs，极大地提高了它们的精细视频理解能力。因此，我们提出了两个关键贡献：（1）自监督片段微调（SF$^2$T），这是一种新颖且易于实现的微调方法，利用视频的丰富内在特性进行训练，同时提高了Video-LLMs的精细理解能力。此外，它减轻了研究人员的工作负担，并巧妙地规避了自然语言的局限性，自然语言往往无法捕捉视频中的复杂时空变化；（2）一个用于严格评估Video-LLMs在场景和片段级别性能的新基准数据集，即FineVidBench，它为全面评估其能力提供了评估标准。我们在多个模型上进行了评估，验证了SF$^2$T的有效性。实验结果表明，我们的方法提高了它们捕获和解释时空细节的能力。