LLM2D

摘要

这篇文献综述回顾了关键词识别 (KWS) 技术的进展，特别关注乌尔都语，这是巴基斯坦的一种低资源语言 (LRL)，具有复杂的语音学特征。尽管语音技术在全球范围内取得了长足进步，但乌尔都语提出了独特的挑战，需要更量身定制的解决方案。综述追踪了从基础的高斯混合模型到复杂的神经网络架构（如深度神经网络和 Transformer）的演变，突出了重要的里程碑，如整合多任务学习和利用未标记数据的自监督方法。它考察了新兴技术在多语言和资源受限环境中提高 KWS 系统性能方面的作用，强调了需要针对乌尔都语等语言的创新。因此，本综述强调了针对乌尔都语和类似 URL 的固有复杂性进行特定于上下文的研究所需，以及通过此类语言进行交流的地区采取更具包容性的语音技术方法。