摘要
arXiv:2505.01068v1 类型:交叉
摘要:多模态情感分析(MSA)是一个正在快速发展的领域,它结合多模态信息以识别情感,并且现有模型在这个领域取得了显著进展。MSA 中的主要挑战是多模态融合,这主要通过多模态变压器(MulTs)来解决。尽管 MulTs 起到了范式作用,但它们在效率方面存在一些问题。在这项工作中,从效率优化的角度出发,我们提出并证明了 MulTs 是一种分层模态异构图(HMHGs),并且我们引入了 MulTs 的图结构表示模式。基于这一模式,我们提出了一种交错遮罩(IM)机制,设计了图结构和交错遮罩的多模态变压器(GsiT)。该机制在 IM 的帮助下,实现了有效的权重共享机制,同时避免了信息混乱,从而通过纯 MulTs 参数量的三分之一实现了全模态融合。还实现了一个名为 Decomposition 的 Triton 核心,以确保避免额外的计算开销。此外,它在传统 MulTs 上实现了显著更高的性能。为了进一步验证 GsiT 本身和 HMHG 概念的有效性,我们将它们整合到多个最先进的模型中,在广泛使用的 MSA 数据集上展示了显著的性能提升和参数减少。