LLM2D
乌尔都语关键词识别技术文献综述
A Literature Review of Keyword Spotting Technologies for Urdu
作者: Syed Muhammad Aqdas Rizvi
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16317v1

摘要

这篇文献综述回顾了关键词识别 (KWS) 技术的进展,特别关注乌尔都语,这是巴基斯坦的一种低资源语言 (LRL),具有复杂的语音学特征。尽管语音技术在全球范围内取得了长足进步,但乌尔都语提出了独特的挑战,需要更量身定制的解决方案。综述追踪了从基础的高斯混合模型到复杂的神经网络架构(如深度神经网络和 Transformer)的演变,突出了重要的里程碑,如整合多任务学习和利用未标记数据的自监督方法。它考察了新兴技术在多语言和资源受限环境中提高 KWS 系统性能方面的作用,强调了需要针对乌尔都语等语言的创新。因此,本综述强调了针对乌尔都语和类似 URL 的固有复杂性进行特定于上下文的研究所需,以及通过此类语言进行交流的地区采取更具包容性的语音技术方法。