摘要
视觉情感分析在计算机视觉和心理学领域都具有重要的研究价值。然而,现有的视觉情感分析方法由于情感感知的模糊性和数据场景的多样性,存在泛化能力有限的问题。为了解决这个问题,我们引入了 UniEmoX,这是一个跨模态语义引导的大规模预训练框架。受心理学研究强调情感探索过程与个体与其环境之间相互作用不可分割的启发,UniEmoX 整合了以场景为中心和以人为中心的低级图像空间结构信息,旨在推导出更细致入微和更具辨别力的情感表征。通过利用配对和非配对图像-文本样本之间的相似性,UniEmoX 从 CLIP 模型中提取丰富的语义知识,以更有效地增强情感嵌入表征。据我们所知,这是第一个将心理学理论与当代对比学习和掩码图像建模技术相结合的大规模预训练框架,用于跨不同场景的情感分析。此外,我们开发了一个名为 Emo8 的视觉情感数据集。Emo8 样本涵盖了卡通、自然、现实、科幻和广告封面风格等多种领域,涵盖了几乎所有常见的情感场景。在两个下游任务的六个基准数据集上进行的综合实验验证了 UniEmoX 的有效性。源代码可在 https://github.com/chincharles/u-emo 获取。