LLM2D

摘要

arXiv:2505.06536v1 公告类型: cross 摘要：融合技术是多模态情感识别任务的关键。近年来，基于跨模态注意的融合方法展示了高性能和强健健壮性。然而，跨模态注意会遇到冗余特征的问题，并且不能很好地捕捉互补特征。我们发现，在跨模态交互过程中，不需要使用另一种模态的全部信息来强化另一种模态，可以强化另一模态的特征可能仅包含该模态的一部分。为此，我们设计了一种创新的基于Transformer的自适应跨模态融合网络(TACFN)。具体来说，对于冗余特征，我们让一种模态通过自注意力机制执行本模态的特征选择，以便所选特征能够适应性且高效地与另一种模态交互。为了更好地捕捉模态之间的互补信息，我们通过拼接获得融合权重向量，并通过权重向量实现在模态中的特征增强。我们将TACFN应用于RAVDESS和IEMOCAP数据集。为了公平比较，我们使用相同的单模态表示来验证所提融合方法的有效性。实验结果表明，与其它方法相比，TACFN带来了显著的性能提升，并达到了最先进的水平。所有代码和模型可以从 https://github.com/shuzihuaiyu/TACFN 访问。