LLM2D
从训练范式的视角高效整合大型语言模型与视觉感知:一种综述
Efficiently Integrate Large Language Models with Visual Perception: A Survey from the Training Paradigm Perspective
作者: Xiaorui Ma, Haoran Xie, S. Joe Qin
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01524v1

摘要

arXiv:2502.01524v1 Announce Type: cross 摘要:视觉-语言模态的集成一直是多模态学习的一个重要研究方向,传统上依赖于视觉-语言预训练模型。然而,随着大规模语言模型(LLMs)的出现,人们开始更加倾向于将LLMs与视觉模态结合起来。随着这一趋势的发展,将视觉模态整合到LLMs中的训练范式也有所演变。最初,这种方法是通过预训练模态集成器来进行的,称为单阶段调优。此后,这种方法发展出了专注于性能提升的两阶段调优方法,以及侧重于参数效率的直接适配方法。然而,现有的综述主要关注使用两阶段调优方法的最新视觉大规模语言模型(VLLMs),对于训练范式的演变及其独特的参数效率考虑方式研究有所欠缺。本文从训练范式视角出发,整理和回顾了来自顶级会议、期刊和高被引Arxiv论文的34个VLLMs,重点关注适应期间的参数效率。我们首先介绍大规模语言模型的架构和参数高效学习方法,随后讨论视觉编码器,并给出模态集成器的综合分类。接着,我们综述了三种训练范式及其效率考虑,总结了VLLM领域的基准测试结果。为深入了解它们在参数效率方面的有效性,我们比较和讨论了代表性模型的实验结果,其中涉及直接适配范式的实验结果也进行了复现。通过深入探讨这些近期发展和实际应用,这篇综述对研究者和从业人员有效将视觉模态整合到LLMs中的导航起到了重要作用。