LLM2D

摘要

arXiv:2401.10747v4 公告类型: replace-cross 摘要：多模态情感分析旨在通过视觉、语言和声音线索识别个体所表达的情绪。然而，现有大多数研究工作假设在训练和测试过程中所有模态都是可用的，使得其算法容易受到缺失模态场景的影响。本文中，我们提出了一种新颖的知识传递网络，用于在不同模态之间进行翻译，以重建缺失的声音模态。此外，我们开发了一种跨模态注意力机制，用于在情感预测中保留重建和观察模态的最大信息量。在三个公开可用的数据集上的广泛实验表明，与基线方法相比取得了显著改进，并且在完全多模态监督的情况下达到了与先前方法相当的结果。