LLM2D
基于大型语言模型的零样本面部情感标注基准测试:日常生活中的多类多帧方法
Benchmarking Zero-Shot Facial Emotion Annotation with Large Language Models: A Multi-Class and Multi-Frame Approach in DailyLife
作者: He Zhang, Xinyi Fu
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12454v1

摘要

arXiv:2502.12454v1 公告类型: cross 摘要:本研究探讨了使用大规模语言模型(LLMs)自动标注日常生活场景中人类情绪的可行性和性能。我们在公开可用的FERV39k数据集的DailyLife子集中进行了实验,使用GPT-4o-mini模型对从视频片段中提取的关键帧进行快速零样本标注。在七类情感分类学("愤怒"、"厌恶"、"恐惧"、"快乐"、"中性"、"悲伤"、"惊讶")下,LLM 的平均精确度约为 50%。相比之下,当限制为三类情感分类(消极/中性/积极)时,平均精确度提高到约 64%。此外,我们还探讨了一种策略,即将1-2秒的视频片段中的多个帧结合起来,以提高标注性能并降低成本。结果表明,这种方法可以在一定程度上提高标注准确性。总体而言,我们的初步发现突显了零样本LLMs在人类面部情绪标注任务中的潜在应用,为减少标注成本提供了新的途径,并扩大了LLMs在复杂多媒体环境中的应用范围。