LLM2D
ADAT:时间序列意识自适应Transformer架构用于手语翻译
ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation
作者: Nada Shahin, Leila Ismail
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11942v1

摘要

arXiv:2504.11942v1 宣布类型: 新 摘要: 当前的手语机器翻译系统依赖于识别手部动作、面部表情和身体姿态,并结合自然语言处理,将手语转换为文本。最近的方法使用 Transformer 架构通过位置编码来建模长距离依赖性。然而,它们在识别以高帧率捕获的手势之间的细微、短距离时间依赖性方面缺乏准确性。此外,其高计算复杂性导致训练效率低下。为了解决这些问题,我们提出了一种自适应 Transformer (ADAT),它结合了增强特征提取和通过门控机制进行自适应特征加权的组件,以强调上下文相关特征,同时减少训练开销并保持翻译准确性。为了评估 ADAT,我们引入了 MedASL,这是第一个公开的医疗美国手语数据集。在手语到手写词再到文本的实验中,ADAT 在 PHOENIX14T 上将训练时间减少了 14.33%,并将 BLEU-4 准确度提高了 0.1%,在 MedASL 上将训练时间减少了 3.24%,并将 BLEU-4 准确度提高了 0.1%。在手语到文本的实验中,它在 PHOENIX14T 上将准确度提高了 8.7%,将训练时间减少了 2.8%,在 MedASL 上准确度提高了 4.7%,训练时间加快了 7.17%。与手语到文本中的仅编码器和仅解码器基准相比,尽管 ADAT 的双流结构使其慢了最高 12.1%,但其准确率提高了至少 6.8%。