摘要
本研究探讨了将视觉语言模型(VLMs)中的 Transformer 替换为 Mamba,Mamba 是一种最近的结构化状态空间模型(SSM),在序列建模方面表现出良好的性能。我们在受控条件下测试了高达 30 亿参数的模型,结果表明,基于 Mamba 的 VLMs 在字幕生成、问答和阅读理解方面优于基于 Transformer 的 VLMs。然而,我们发现 Transformer 在视觉定位方面取得了更高的性能,并且性能差距随着规模的扩大而扩大。我们探索了两种假设来解释这种现象:1)任务无关的视觉编码对隐藏状态更新的影响,以及 2)从上下文多模态检索的角度来看,执行视觉定位的难度。我们的结果表明,任务感知编码在定位方面产生的性能增益最小,然而,Transformer 在上下文多模态检索方面明显优于 Mamba。总体而言,Mamba 在正确输出依赖于图像摘要的任务中表现出良好的性能,但在需要从上下文中检索显式信息时则难以胜任。