LLM2D
ResNetVLLM -- 多模态视觉大语言模型用于视频理解任务
ResNetVLLM -- Multi-modal Vision LLM for the Video Understanding Task
作者: Ahmad Khalil, Mahmoud Khalil, Alioune Ngom
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14432v1

摘要

arXiv:2504.14432v1 类别: cross 摘要: 在本文中,我们介绍了一种新型跨模态框架 ResNetVLLM (ResNet 视觉 LLM),该框架将基于 ResNet 的视觉编码器与大型语言模型 (LLM) 结合起来,用于零样本视频理解。ResNetVLLM 通过避免依赖预训练的视频理解模型,而是使用一个未预训练的 ResNet 来提取视觉特征,从而解决了零样本视频模型面临的挑战。这种设计确保了模型在统一架构中学习视觉和语义表示,增强了其从视频输入生成准确且上下文相关文本描述的能力。我们的实验结果表明,ResNetVLLM 在 MSRVTT-QA、MSVD-QA、TGIF-QA FrameQA 和 ActivityNet-QA 等多个基准测试中实现了零样本视频理解 (ZSVU) 的最佳性能。