摘要
基础模型能够根据提示指令以及文本、音频或图像输入生成文本输出。最近,这些模型被组合起来用于执行视频任务,例如视频摘要。这类视频基础模型通过将每个模态特定模型的输出对齐到同一个嵌入空间来进行预训练。然后,来自每个模型的嵌入被用于语言模型中,该语言模型在所需指令集上进行了微调。在预训练期间对齐每个模态在计算上代价高昂,并且会阻碍对不同基础模态模型的快速测试。在微调期间,评估是在域内视频中进行的,很难理解这些方法的泛化性和数据效率。为了缓解这些问题,我们提出了一种即插即用的视频语言模型。它直接将来自每个输入模态的文本用于语言模型,避免了预训练对齐的开销。我们利用少样本指令适应策略,而不是微调。我们比较了即插即用方法和基线调优方法的性能与计算成本。最后,我们探索了每种方法在域转移过程中的泛化性,并展示了训练数据有限时哪些数据是有用的。通过这种分析,我们提供了关于如何在实际计算和数据限制下利用多模态基础模型获得有效结果的实用见解。