摘要
arXiv:2502.06875v1 Announce Type: cross
摘要:大型语言模型主要通过文本形式的输入和输出进行操作,而人类情感则通过口头和非口头线索进行交流,包括面部表情。尽管视觉语言模型可以从图像中分析面部表情,但它们资源密集且可能更依赖于语言先验而非视觉理解。为了解决这一问题,这项研究探讨了大型语言模型(LLM)是否可以从面部表情维度(唤醒度和 valence 值)的结构化数值表示中推断出情感意义,而不是使用原始的视觉输入。通过 Facechannel 从面部表情图像中提取 VA 值,并在两个任务中将其提供给 LLMs:(1)在 IIMI 数据集上对基本面部表情进行分类,在 Emotic 数据集上对复杂情绪进行分类;(2)在 Emotic 数据集上生成面部表情的语义描述。分类任务的结果表明,LLM 在将 VA 值分类为离散的情绪类别方面存在困难,特别是在基本极性情绪之外的情绪(如快乐、悲伤)方面。但在语义描述任务中,LLM 生成的文本描述与人类生成的解释高度一致,展示了更强的面向文本的面部表情情感推断能力。