LLM2D
基于迁移学习和Transformer模型的阿拉伯字母手语识别技术
Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models
作者: Mazen Balat, Rewaa Awaad, Hend Adel, Ahmed B. Zaky, Salah A. Aly
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00681v1

摘要

本文提出了一种基于深度学习、迁移学习和Transformer模型的阿拉伯语字母手语识别方法。我们研究了不同变体在两个公开数据集上的性能,即ArSL2018和AASL。该任务将充分利用最先进的CNN架构,如ResNet50、MobileNetV2和EfficientNetB7,以及最新的Transformer模型,如Google ViT和Microsoft Swin Transformer。这些预训练模型已在上述数据集上进行了微调,以尝试捕捉阿拉伯语手语运动的一些独特特征。实验结果表明,所建议的方法可以获得很高的识别精度,在ArSL2018和AASL上分别达到99.6%和99.43%。这远远超过了之前报道的最先进方法。这种性能为阿拉伯语聋哑人和听障人士提供了更便捷的交流方式,从而鼓励构建一个包容性的社会。