LLM2D
语义关键:多模态特征情感分析
Semantic Matters: Multimodal Features for Affective Analysis
作者: Tobias Hallmen, Robin-Nico Kampa, Fabian Deuser, Norbert Oswald, Elisabeth Andr\'e
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.11460v2

摘要

arXiv:2504.11460v2 公告类型: replace-cross 摘要: 在本研究中,我们介绍了两种任务的方法:情感模仿强度 (EMI) 估计挑战和行为不确定性/犹豫 (BAH) 识别挑战,这些都是在第八届野生情感与行为分析研讨会暨竞赛中进行的。我们利用在大规模播客数据集上预训练的 Wav2Vec 2.0 模型提取各种音频特征,捕获语言和副语言信息。我们的方法结合了从 Wav2Vec 2.0 提取的情感-唤醒-主宰 (VAD) 模块、BERT 文本编码器和视觉变换器 (ViT),并通过长短期记忆 (LSTM) 架构或类似卷积的方法进行时间建模,以处理后续预测。我们将文本和视觉模态整合到分析中,认识到语义内容提供了有价值的情境线索,并强调言语的意义经常比其声学对应物单独提供的见解更为深刻。结合视觉模态有助于更好地解释文本模态。这种综合方法在 EMI 方面取得了显著的性能提升,$\rho_{\text{TEST}} = 0.706$,在 BAH 方面取得了 $F1_{\text{TEST}} = 0.702$ 的成绩,从而在 EMI 挑战中获得第一名,在 BAH 挑战中获得第二名。