LLM2D

摘要

本研究探讨了将视觉语言模型（VLMs）中的 Transformer 替换为 Mamba，Mamba 是一种最近的结构化状态空间模型（SSM），在序列建模方面表现出良好的性能。我们在受控条件下测试了高达 30 亿参数的模型，结果表明，基于 Mamba 的 VLMs 在字幕生成、问答和阅读理解方面优于基于 Transformer 的 VLMs。然而，我们发现 Transformer 在视觉定位方面取得了更高的性能，并且性能差距随着规模的扩大而扩大。我们探索了两种假设来解释这种现象：1）任务无关的视觉编码对隐藏状态更新的影响，以及 2）从上下文多模态检索的角度来看，执行视觉定位的难度。我们的结果表明，任务感知编码在定位方面产生的性能增益最小，然而，Transformer 在上下文多模态检索方面明显优于 Mamba。总体而言，Mamba 在正确输出依赖于图像摘要的任务中表现出良好的性能，但在需要从上下文中检索显式信息时则难以胜任。