LLM2D
重塑视觉语言模型:比较用于视觉和语言建模的 Transformer 和结构化状态空间模型
Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling
作者: Georgios Pantazopoulos, Malvina Nikandrou, Alessandro Suglia, Oliver Lemon, Arash Eshghi
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2409.05395v2

摘要

本研究探讨了将视觉语言模型(VLMs)中的 Transformer 替换为 Mamba,Mamba 是一种最近的结构化状态空间模型(SSM),在序列建模方面表现出良好的性能。我们在受控条件下测试了高达 30 亿参数的模型,结果表明,基于 Mamba 的 VLMs 在字幕生成、问答和阅读理解方面优于基于 Transformer 的 VLMs。然而,我们发现 Transformer 在视觉定位方面取得了更高的性能,并且性能差距随着规模的扩大而扩大。我们探索了两种假设来解释这种现象:1)任务无关的视觉编码对隐藏状态更新的影响,以及 2)从上下文多模态检索的角度来看,执行视觉定位的难度。我们的结果表明,任务感知编码在定位方面产生的性能增益最小,然而,Transformer 在上下文多模态检索方面明显优于 Mamba。总体而言,Mamba 在正确输出依赖于图像摘要的任务中表现出良好的性能,但在需要从上下文中检索显式信息时则难以胜任。