LLM2D
EMMA:赋能多模态Mamba模型,实现结构化和层次化对齐
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment
作者: Yifei Xing, Xiangyuan Lan, Ruiping Wang, Dongmei Jiang, Wenjun Huang, Qingfang Zheng, Yaowei Wang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05938v1

摘要

基于Mamba的架构因其出色的性能和亚二次部署速度,已成为深度学习模型的一个很有前景的新方向。然而,现有的Mamba多模态大型语言模型(MLLM)在提取视觉特征方面存在不足,导致视觉和文本潜变量之间的跨模态对齐不平衡,从而对多模态任务的性能产生负面影响。在这项工作中,我们提出了赋能结构和层次对齐的多模态Mamba(EMMA),它使MLLM能够提取细粒度的视觉信息。具体来说,我们提出了一个像素级对齐模块,以自回归的方式优化空间图像级特征以及文本标记的学习和处理,从而实现图像级的结构对齐。此外,为了防止跨模型对齐过程中视觉信息的退化,我们提出了一个多尺度特征融合(MFF)模块,将来自中间层的多种尺度视觉特征进行组合,从而实现特征级的层次对齐。我们在各种多模态基准上进行了广泛的实验。我们的模型比其他基于Mamba的MLLM具有更低的延迟,并且在推理过程中比类似规模的基于Transformer的MLLM快近四倍。由于更好的跨模态对齐,我们的模型表现出更低的幻觉程度和对视觉细节的增强敏感性,这在各种多模态基准上表现出优越的性能。代码将提供。