LLM2D

摘要

arXiv:2504.14432v1 类别: cross 摘要: 在本文中，我们介绍了一种新型跨模态框架 ResNetVLLM (ResNet 视觉 LLM)，该框架将基于 ResNet 的视觉编码器与大型语言模型 (LLM) 结合起来，用于零样本视频理解。ResNetVLLM 通过避免依赖预训练的视频理解模型，而是使用一个未预训练的 ResNet 来提取视觉特征，从而解决了零样本视频模型面临的挑战。这种设计确保了模型在统一架构中学习视觉和语义表示，增强了其从视频输入生成准确且上下文相关文本描述的能力。我们的实验结果表明，ResNetVLLM 在 MSRVTT-QA、MSVD-QA、TGIF-QA FrameQA 和 ActivityNet-QA 等多个基准测试中实现了零样本视频理解 (ZSVU) 的最佳性能。