摘要
视觉情感分析在计算机视觉和心理学领域都具有重要的研究价值。然而,现有的视觉情感分析方法由于情感感知的模糊性和数据场景的多样性,其泛化能力有限。为了解决这个问题,我们引入了 UniEmoX,这是一个跨模态语义引导的大规模预训练框架。UniEmoX 受心理研究的启发,强调情感探索过程与个体与其环境之间相互作用的不可分割性,将场景中心和人物中心低级图像空间结构信息整合在一起,旨在推导出更细致和更有辨别力的情感表示。通过利用成对和不成对图像文本样本之间的相似性,UniEmoX 从 CLIP 模型中提取丰富的语义知识,以更有效地增强情感嵌入表示。据我们所知,这是第一个将心理理论与当代对比学习和掩码图像建模技术相结合的大规模预训练框架,用于跨不同场景的情感分析。此外,我们开发了一个名为 Emo8 的视觉情感数据集。Emo8 样本涵盖了漫画、自然、现实、科幻和广告封面风格等多个领域,涵盖了几乎所有常见的情感场景。在两个下游任务的六个基准数据集上进行的综合实验验证了 UniEmoX 的有效性。源代码可在 https://github.com/chincharles/u-emo 获取。