LLM2D

摘要

本文提出了一种基于深度学习、迁移学习和Transformer模型的阿拉伯语字母手语识别方法。我们研究了不同变体在两个公开数据集上的性能，即ArSL2018和AASL。该任务将充分利用最先进的CNN架构，如ResNet50、MobileNetV2和EfficientNetB7，以及最新的Transformer模型，如Google ViT和Microsoft Swin Transformer。这些预训练模型已在上述数据集上进行了微调，以尝试捕捉阿拉伯语手语运动的一些独特特征。实验结果表明，所建议的方法可以获得很高的识别精度，在ArSL2018和AASL上分别达到99.6%和99.43%。这远远超过了之前报道的最先进方法。这种性能为阿拉伯语聋哑人和听障人士提供了更便捷的交流方式，从而鼓励构建一个包容性的社会。