摘要
arXiv:2502.13983v1 交叉公告类型
摘要:语言障碍个体常常由于语言处理和理解能力的限制而在沟通上面临重大挑战,这也影响了他们与主要依赖自动语音识别(ASR)的语音辅助系统的互动。尽管在语音识别方面取得了进步,改善了对非流畅性的处理,但很少关注整合非言语交流方法,如手势,这些方法对于语言障碍个体补充沟通至关重要。认识到需要解释仅靠语音无法捕捉到的视觉信息的潜在含义,我们提出了一种利用具有零样本学习的大规模多模态语言模型的手势感知ASR系统,旨在为言语障碍个体提供有效的支持。我们的实验结果和分析表明,包括手势信息显著增强了语义理解。本研究有助于开发有效的沟通技术,特别是针对语言障碍个体的独特需求而设计的。