LLM2D
超越视觉:大型语言模型如何从正负情绪值解读面部表情
Beyond Vision: How Large Language Models Interpret Facial Expressions from Valence-Arousal Values
作者: Vaibhav Mehra, Guy Laban, Hatice Gunes
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06875v1

摘要

arXiv:2502.06875v1 Announce Type: cross 摘要:大型语言模型主要通过文本形式的输入和输出进行操作,而人类情感则通过口头和非口头线索进行交流,包括面部表情。尽管视觉语言模型可以从图像中分析面部表情,但它们资源密集且可能更依赖于语言先验而非视觉理解。为了解决这一问题,这项研究探讨了大型语言模型(LLM)是否可以从面部表情维度(唤醒度和 valence 值)的结构化数值表示中推断出情感意义,而不是使用原始的视觉输入。通过 Facechannel 从面部表情图像中提取 VA 值,并在两个任务中将其提供给 LLMs:(1)在 IIMI 数据集上对基本面部表情进行分类,在 Emotic 数据集上对复杂情绪进行分类;(2)在 Emotic 数据集上生成面部表情的语义描述。分类任务的结果表明,LLM 在将 VA 值分类为离散的情绪类别方面存在困难,特别是在基本极性情绪之外的情绪(如快乐、悲伤)方面。但在语义描述任务中,LLM 生成的文本描述与人类生成的解释高度一致,展示了更强的面向文本的面部表情情感推断能力。