摘要
arXiv:2504.07521v1 通知类型: 新
摘要: 大多数现有的情绪分析侧重于情绪的产生(例如,快乐、悲伤、愤怒)但却忽视了更深层次的为什么。我们提出了情绪解释(EI),关注的是驱动情绪反应的背后因素—无论是显性的(例如,可观测的物体、人际互动)还是隐性的(例如,文化背景、场景外的事件)。不同于传统的面部表情识别,EI任务需要对触发因素进行推理而不是简单的标签化。为了促进EI研究,我们提供了一个大规模基准EIBench,包含1,615个基本的EI样本和50个复杂的EI样本,涵盖了多维度的情绪。每个实例要求提供基于推理的解释而非简单的分类。我们还提出了粗到细自我提问(CFSA)标注流水线,该流水线通过迭代的问答轮次引导视觉语言模型(VLLMs)生成高质量的标签。在四个实验设置下的开源和专属大型语言模型的广泛评估揭示了性能差距,尤其是在复杂场景中,这强调了EI在丰富具有同情心和情境意识的人工智能应用方面的潜力。我们的基准和方法在以下开源链接上可用:https://github.com/Lum1104/EIBench,为高级多模态因果分析和下一代情感计算提供了基础。