LLM2D
多模态自回归建模通过视觉词汇
Multi-modal Auto-regressive Modeling via Visual Words
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2403.07720v2

摘要

大型语言模型(LLMs),通过对大规模未标注文本语料库进行自回归建模,展现了强大的感知和推理能力。然而,将自回归建模扩展到多模态场景以构建大型多模态模型(LMMs)时,存在一个重大难题,即图像信息在LMM中被处理为连续的视觉嵌入,无法获得用于分类的离散监督标签。在本文中,我们首次成功地以统一目标实现了多模态自回归建模。具体而言,我们提出了视觉令牌的概念,将视觉特征映射到LLM词汇表上的概率分布,为视觉建模提供监督信息。我们进一步探索了LMM中视觉特征在语义空间中的分布以及使用文本嵌入表示视觉信息的可能性。在5个视觉问答任务和4个基准工具包上的实验结果和消融研究验证了我们提出方法的强大性能。