LLM2D

摘要

arXiv:2504.11460v2 公告类型: replace-cross 摘要: 在本研究中，我们介绍了两种任务的方法：情感模仿强度 (EMI) 估计挑战和行为不确定性/犹豫 (BAH) 识别挑战，这些都是在第八届野生情感与行为分析研讨会暨竞赛中进行的。我们利用在大规模播客数据集上预训练的 Wav2Vec 2.0 模型提取各种音频特征，捕获语言和副语言信息。我们的方法结合了从 Wav2Vec 2.0 提取的情感-唤醒-主宰 (VAD) 模块、BERT 文本编码器和视觉变换器 (ViT)，并通过长短期记忆 (LSTM) 架构或类似卷积的方法进行时间建模，以处理后续预测。我们将文本和视觉模态整合到分析中，认识到语义内容提供了有价值的情境线索，并强调言语的意义经常比其声学对应物单独提供的见解更为深刻。结合视觉模态有助于更好地解释文本模态。这种综合方法在 EMI 方面取得了显著的性能提升，$\rho_{\text{TEST}} = 0.706$，在 BAH 方面取得了 $F1_{\text{TEST}} = 0.702$ 的成绩，从而在 EMI 挑战中获得第一名，在 BAH 挑战中获得第二名。