LLM2D

摘要

基于Mamba的架构因其出色的性能和亚二次部署速度，已成为深度学习模型的一个很有前景的新方向。然而，现有的Mamba多模态大型语言模型（MLLM）在提取视觉特征方面存在不足，导致视觉和文本潜变量之间的跨模态对齐不平衡，从而对多模态任务的性能产生负面影响。在这项工作中，我们提出了赋能结构和层次对齐的多模态Mamba（EMMA），它使MLLM能够提取细粒度的视觉信息。具体来说，我们提出了一个像素级对齐模块，以自回归的方式优化空间图像级特征以及文本标记的学习和处理，从而实现图像级的结构对齐。此外，为了防止跨模型对齐过程中视觉信息的退化，我们提出了一个多尺度特征融合（MFF）模块，将来自中间层的多种尺度视觉特征进行组合，从而实现特征级的层次对齐。我们在各种多模态基准上进行了广泛的实验。我们的模型比其他基于Mamba的MLLM具有更低的延迟，并且在推理过程中比类似规模的基于Transformer的MLLM快近四倍。由于更好的跨模态对齐，我们的模型表现出更低的幻觉程度和对视觉细节的增强敏感性，这在各种多模态基准上表现出优越的性能。代码将提供。