LLM2D

摘要

arXiv:2505.05943v1 宣告类型：交叉摘要：ConvNeXt及其变体的出现再次证实了基于CNN的模型在计算机视觉任务中的概念和结构适用性，重新确立了它们在图像分类中的关键地位，特别是在面部表情识别（FER）方面。在本文中，我们提出了一组新的模型，这些模型基于这些进展，通过将 triplet 注意力与 Squeeze-and-Excitation（TripSE）机制相结合，在四种不同的变体中进行了集成。我们通过将这些变体应用于 ResNet18、DenseNet 和 ConvNext 架构来展示这些变体的有效性，以验证它们的多功能性和影响。我们的研究表明，在这些 CNN 模型中引入 TripSE 块可以提高它们的表现，特别是在 ConvNeXt 架构方面，这表明了其实用性。我们在 CIFAR100、ImageNet、FER2013 和 AffectNet 数据集上评估了所提出的机制和相关模型，其中使用 TripSE 的 ConvNext 在流行的数据集 FER2013 上达到了 78.27% 的准确率，这是该数据集的一个新成就。