摘要
arXiv:2401.10747v4 公告类型: replace-cross
摘要:多模态情感分析旨在通过视觉、语言和声音线索识别个体所表达的情绪。然而,现有大多数研究工作假设在训练和测试过程中所有模态都是可用的,使得其算法容易受到缺失模态场景的影响。本文中,我们提出了一种新颖的知识传递网络,用于在不同模态之间进行翻译,以重建缺失的声音模态。此外,我们开发了一种跨模态注意力机制,用于在情感预测中保留重建和观察模态的最大信息量。在三个公开可用的数据集上的广泛实验表明,与基线方法相比取得了显著改进,并且在完全多模态监督的情况下达到了与先前方法相当的结果。