摘要
arXiv:2505.05943v1 宣告类型:交叉
摘要:ConvNeXt及其变体的出现再次证实了基于CNN的模型在计算机视觉任务中的概念和结构适用性,重新确立了它们在图像分类中的关键地位,特别是在面部表情识别(FER)方面。在本文中,我们提出了一组新的模型,这些模型基于这些进展,通过将 triplet 注意力与 Squeeze-and-Excitation(TripSE)机制相结合,在四种不同的变体中进行了集成。我们通过将这些变体应用于 ResNet18、DenseNet 和 ConvNext 架构来展示这些变体的有效性,以验证它们的多功能性和影响。我们的研究表明,在这些 CNN 模型中引入 TripSE 块可以提高它们的表现,特别是在 ConvNeXt 架构方面,这表明了其实用性。我们在 CIFAR100、ImageNet、FER2013 和 AffectNet 数据集上评估了所提出的机制和相关模型,其中使用 TripSE 的 ConvNext 在流行的数据集 FER2013 上达到了 78.27% 的准确率,这是该数据集的一个新成就。