LLM2D

摘要

多模态情感识别利用完整的模态信息和强大的多模态联合表示来获得高性能。然而，在现实中，完整的模态完整性的理想条件往往不适用，并且总是会出现某些模态缺失的情况。例如，由于传感器故障或网络带宽问题，视频、音频或文本数据缺失，这对 MER 研究提出了巨大挑战。传统方法从完整的模态中提取有用信息，并重建缺失的模态以学习鲁棒的多模态联合表示。这些方法为该领域的研究奠定了坚实的基础，并在一定程度上缓解了模态缺失情况下多模态情感识别的难度。然而，仅仅依靠内部重建和多模态联合学习存在局限性，尤其是在缺失信息对情感识别至关重要的情况下。为了解决这一挑战，我们提出了一种新的检索增强缺失模态多模态情感识别框架（RAMER），该框架引入了类似的多模态情感数据来增强模态缺失情况下情感识别的性能。通过利用包含相关多模态情感数据的数据库，我们可以检索类似的多模态情感信息来填补缺失模态留下的空白。各种实验结果表明，我们的框架在缺失模态 MER 任务中优于现有的最先进方法。我们的整个项目在 https://github.com/WooyoohL/Retrieval_Augment_MER 上公开提供。