摘要
arXiv:2503.19794v1 适应类型: 交叉
摘要: 预训练视频大型语言模型(Video LLMs)展示了出色的推理能力,但将这些模型适应于涉及额外模态或数据类型的新任务(例如,音频或三维信息)仍然具有挑战性。在本文中,我们提出了PAVE,这是一种灵活的框架,用于通过旁路信号(如音频、三维线索或多视角视频)对预训练的Video LLMs进行下游任务的适应。PAVE引入了轻量级的adapter,称为“补丁”,这些补丁在不修改基础模型架构或预训练权重的情况下,增加了少量的参数和操作。通过这种方式,PAVE能够有效地将预训练的基础模型适应于各种下游任务,包括视听问答、三维推理、多视角视频识别和高帧率视频理解。在这些任务中,PAVE显著提升了基础模型的性能,在增加不到0.1%的额外FLOPs和参数成本的情况下,超过了最先进的特定任务模型。此外,PAVE支持多任务学习,并且能够在不同Video LLMs之间表现出良好的泛化能力。我们的代码可在https://github.com/dragonlzm/PAVE上获得。