LLM2D
利用集成学习进行跨视图孤立手语识别
Exploiting Ensemble Learning for Cross-View Isolated Sign Language Recognition
作者: Fei Wang, Kun Li, Yiqi Nie, Zhangling Duan, Peng Zou, Zhiliang Wu, Yuwei Wang, Yanyan Wei
发布日期: 2/5/2025
arXiv ID: 2502.02196

摘要

arXiv:2502.02196v1 交叉视图孤立手语识别挑战公告类型:交叉视图 摘要:在这篇论文中,我们展示了解决在2025年WWW会议上举办的交叉视图孤立手语识别(CV-ISLR)挑战的解决方案。CV-ISLR解决了传统孤立手语识别(ISLR)中的一个关键问题,即现有数据集主要捕捉面向前方的手语视频,而实际的摄像角度往往有所不同。为了从不同视角准确识别手语,模型必须能够理解多角度的手势动作,从而使交叉视角识别变得具有挑战性。为了解决这一问题,我们探讨了集成学习的优势,这可以增强模型在不同视角下的鲁棒性和泛化能力。我们的方法基于一个多维Video Swin Transformer模型,利用这一集成策略实现了具有竞争力的性能。最后,我们的解决方案在基于RGB和基于RGB-D的手语识别轨迹中均排名第3,展示了其在处理交叉视角识别挑战方面的有效性。代码可在以下网址获取:https://github.com/Jiafei127/CV_ISLR_WWW2025。