LLM2D

摘要

arXiv:2502.04424v1 宣告类型: cross 摘要: 随着多模态大型语言模型（MLLMs）被集成到机器人系统和各种AI应用中，将情感 intelligence (EI) 能力嵌入到这些模型中对于使机器人能够有效应对人类的情感需求并在现实世界场景中无缝互动变得至关重要。现有的静态、基于文本或图文基准忽略了真实世界交互的多模态复杂性，无法捕捉情感表达的动态性和多模态性质，使得它们不足以评估MLLMs的情感intelligence。基于已建立的情感智能心理理论，我们构建了EmoBench-M，这是一种新的基准，旨在从三个关键维度对MLLMs在13种评价场景中的EI能力进行评估：基础情感识别、对话情感理解以及社会复杂情感分析。对开源和闭源MLLMs在EmoBench-M上的评估揭示了它们与人类之间存在显著的性能差距，突显了需要进一步提高其EI能力的必要性。所有基准资源，包括代码和数据集，均可在 https://emo-gml.github.io/ 公开访问。