LLM2D

摘要

arXiv:2503.19794v1 适应类型: 交叉摘要: 预训练视频大型语言模型（Video LLMs）展示了出色的推理能力，但将这些模型适应于涉及额外模态或数据类型的新任务（例如，音频或三维信息）仍然具有挑战性。在本文中，我们提出了PAVE，这是一种灵活的框架，用于通过旁路信号（如音频、三维线索或多视角视频）对预训练的Video LLMs进行下游任务的适应。PAVE引入了轻量级的adapter，称为“补丁”，这些补丁在不修改基础模型架构或预训练权重的情况下，增加了少量的参数和操作。通过这种方式，PAVE能够有效地将预训练的基础模型适应于各种下游任务，包括视听问答、三维推理、多视角视频识别和高帧率视频理解。在这些任务中，PAVE显著提升了基础模型的性能，在增加不到0.1%的额外FLOPs和参数成本的情况下，超过了最先进的特定任务模型。此外，PAVE支持多任务学习，并且能够在不同Video LLMs之间表现出良好的泛化能力。我们的代码可在https://github.com/dragonlzm/PAVE上获得。