LLM2D

摘要

arXiv:2502.12454v1 公告类型: cross 摘要：本研究探讨了使用大规模语言模型（LLMs）自动标注日常生活场景中人类情绪的可行性和性能。我们在公开可用的FERV39k数据集的DailyLife子集中进行了实验，使用GPT-4o-mini模型对从视频片段中提取的关键帧进行快速零样本标注。在七类情感分类学（"愤怒"、"厌恶"、"恐惧"、"快乐"、"中性"、"悲伤"、"惊讶"）下，LLM 的平均精确度约为 50%。相比之下，当限制为三类情感分类（消极/中性/积极）时，平均精确度提高到约 64%。此外，我们还探讨了一种策略，即将1-2秒的视频片段中的多个帧结合起来，以提高标注性能并降低成本。结果表明，这种方法可以在一定程度上提高标注准确性。总体而言，我们的初步发现突显了零样本LLMs在人类面部情绪标注任务中的潜在应用，为减少标注成本提供了新的途径，并扩大了LLMs在复杂多媒体环境中的应用范围。