LLM2D

摘要

arXiv:2504.11942v1 宣布类型: 新摘要: 当前的手语机器翻译系统依赖于识别手部动作、面部表情和身体姿态，并结合自然语言处理，将手语转换为文本。最近的方法使用 Transformer 架构通过位置编码来建模长距离依赖性。然而，它们在识别以高帧率捕获的手势之间的细微、短距离时间依赖性方面缺乏准确性。此外，其高计算复杂性导致训练效率低下。为了解决这些问题，我们提出了一种自适应 Transformer (ADAT)，它结合了增强特征提取和通过门控机制进行自适应特征加权的组件，以强调上下文相关特征，同时减少训练开销并保持翻译准确性。为了评估 ADAT，我们引入了 MedASL，这是第一个公开的医疗美国手语数据集。在手语到手写词再到文本的实验中，ADAT 在 PHOENIX14T 上将训练时间减少了 14.33%，并将 BLEU-4 准确度提高了 0.1%，在 MedASL 上将训练时间减少了 3.24%，并将 BLEU-4 准确度提高了 0.1%。在手语到文本的实验中，它在 PHOENIX14T 上将准确度提高了 8.7%，将训练时间减少了 2.8%，在 MedASL 上准确度提高了 4.7%，训练时间加快了 7.17%。与手语到文本中的仅编码器和仅解码器基准相比，尽管 ADAT 的双流结构使其慢了最高 12.1%，但其准确率提高了至少 6.8%。