LLM2D

摘要

arXiv:2504.05857v1 类型:交叉摘要:对于学习者来说,在寻找不熟悉的美国手语（ASL）手势时具有挑战性,因为与口头语言不同,他们无法通过输入文本查询来查找不熟悉的手势。孤立手势识别技术的进步使得基于视频的手语词典得以创建,用户可以提交一个视频并收到最接近的手势列表。此前的人机交互（HCI）研究使用了Wizard-of-Oz原型,探索了ASL词典的界面设计。在此基础上,我们采纳了这些研究的设计建议,并利用最先进的手势识别技术开发了一种自动化的基于视频的手语词典。我们还呈现了十二名初学者ASL学习者使用该词典进行视频理解任务和问答任务的研究观察结果。我们的结果解决了此前Wizard-of-Oz研究未涵盖的人机交互挑战,包括录制和重新提交手势、不可预测的输出、系统延迟和隐私问题。这些见解为设计和部署基于视频的手语词典系统提供了指导。