LLM2D

摘要

arXiv:2504.06578v1 Announce Type: cross 摘要：视觉情感分析或识别由于越来越关注图像如何传达丰富的语义以及激发人类感知中的情感，而引起了极大的关注。然而，与传统视觉任务相比，视觉情感分析提出了独特的挑战，尤其是在通用视觉特征与它们引起的不同情绪状态之间的复杂关系方面，这种关系被称为情感差距。研究人员使用深度表示学习方法来应对从整个图像中提取通用特征的挑战。然而，现有的大多数方法忽视了亮度、色彩鲜艳度、场景理解以及面部表情等特定情感属性的重要性。通过本文，我们介绍了A4Net，这是一个深度表示网络，通过利用四个关键属性来弥合情感差距：亮度（属性1）、色彩鲜艳度（属性2）、场景上下文（属性3）和面部表情（属性4）。通过融合和联合训练所有属性识别和视觉情感分析的各个方面，A4Net旨在更好地洞察图像中的情感内容。实验结果证明了A4Net的有效性，展示了其在多样化的视觉情感数据集上与最新方法相比的竞争力。此外，A4Net生成的激活图可视化展示了其在不同视觉情感数据集上泛化的能力。