LLM2D
我们为何感受:打破情绪推理的边界,利用多模态大语言模型
Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
作者: Yuxiang Lin, Jingdong Sun, Zhi-Qi Cheng, Jue Wang, Haomin Liang, Zebang Cheng, Yifei Dong, Jun-Yan He, Xiaojiang Peng, Xian-Sheng Hua
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.07521v2

摘要

arXiv:2504.07521v2 通报类型:替换 摘要:现有的大多数情感分析侧重于识别产生了哪种情绪(例如,高兴、悲伤、愤怒),但忽视了更深层次的why。我们提出了情感解释(EI),注重情绪反应背后的原因——这些原因可能是显性的(例如,可观察的物体、人际互动)或隐性的(例如,文化背景、不在画面中的事件)。与传统的 emotion 识别不同,EI 任务需要推理触发因素而非仅仅贴标签。为了促进 EI 研究,我们提出了 EIBench,这是一个大规模基准,包括 1,615 个基本 EI 样本和 50 个多维度情感的复杂 EI 样本。每个示例都要求基于推理的解释,而不是简单的分类。我们进一步提出了粗到细自我提问(CFSA)注释管道,该管道通过迭代的问题-答案环节引导视觉-语言模型(VLLMs),以大规模生成高质量的标签。在四种实验设置下对开源和专有大型语言模型进行广泛评估,揭示了在更复杂的情景下普遍存在性能差距,突显了 EI 对丰富同理心、情境感知 AI 应用的潜在价值。我们的基准和方法在 https://github.com/Lum1104/EIBench 公开可用,为先进的多模态因果分析和下一代情感计算提供了基础。