LLM2D

摘要

arXiv:2502.06875v1 Announce Type: cross 摘要：大型语言模型主要通过文本形式的输入和输出进行操作，而人类情感则通过口头和非口头线索进行交流，包括面部表情。尽管视觉语言模型可以从图像中分析面部表情，但它们资源密集且可能更依赖于语言先验而非视觉理解。为了解决这一问题，这项研究探讨了大型语言模型（LLM）是否可以从面部表情维度（唤醒度和 valence 值）的结构化数值表示中推断出情感意义，而不是使用原始的视觉输入。通过 Facechannel 从面部表情图像中提取 VA 值，并在两个任务中将其提供给 LLMs：（1）在 IIMI 数据集上对基本面部表情进行分类，在 Emotic 数据集上对复杂情绪进行分类；（2）在 Emotic 数据集上生成面部表情的语义描述。分类任务的结果表明，LLM 在将 VA 值分类为离散的情绪类别方面存在困难，特别是在基本极性情绪之外的情绪（如快乐、悲伤）方面。但在语义描述任务中，LLM 生成的文本描述与人类生成的解释高度一致，展示了更强的面向文本的面部表情情感推断能力。