摘要
arXiv:2505.01632v1 宣告类型: cross
摘要:应对非平稳环境噪声对自动语音识别(ASR)的负面影响一直是持续且重要的研究焦点。尽管取得了进展,这一挑战仍是主要问题之一。最近,数据驱动的监督方法,如深度神经网络,已逐渐成为传统无监督方法的有前途的替代方案。通过广泛训练,这些方法有可能克服各种现实生活中的声学环境所带来的挑战。基于此,本文提出了一种新颖的神经框架,将稳健的前端集成到ASR系统中,适用于清洁和噪声环境。利用Aurora-2语音数据库,作者基于Residual神经网络(ResNet)的迁移学习方法评估了用于Mel-frequency的声学特征集的有效性。实验结果表明,与卷积神经网络(CNN)和长短期记忆(LSTM)网络相比,这种方法在清洁模式下的识别准确率提高了98.94%,在噪声模式下提高了91.21%。