摘要
本文提出了一种基于深度学习、迁移学习和Transformer模型的阿拉伯语字母手语识别方法。我们研究了不同变体在两个公开数据集上的性能,即ArSL2018和AASL。该任务将充分利用最先进的CNN架构,如ResNet50、MobileNetV2和EfficientNetB7,以及最新的Transformer模型,如Google ViT和Microsoft Swin Transformer。这些预训练模型已在上述数据集上进行了微调,以尝试捕捉阿拉伯语手语运动的一些独特特征。实验结果表明,所建议的方法可以获得很高的识别精度,在ArSL2018和AASL上分别达到99.6%和99.43%。这远远超过了之前报道的最先进方法。这种性能为阿拉伯语聋哑人和听障人士提供了更便捷的交流方式,从而鼓励构建一个包容性的社会。