LLM2D

摘要

arXiv:2505.01632v1 宣告类型: cross 摘要：应对非平稳环境噪声对自动语音识别(ASR)的负面影响一直是持续且重要的研究焦点。尽管取得了进展，这一挑战仍是主要问题之一。最近，数据驱动的监督方法，如深度神经网络，已逐渐成为传统无监督方法的有前途的替代方案。通过广泛训练，这些方法有可能克服各种现实生活中的声学环境所带来的挑战。基于此，本文提出了一种新颖的神经框架，将稳健的前端集成到ASR系统中，适用于清洁和噪声环境。利用Aurora-2语音数据库，作者基于Residual神经网络（ResNet）的迁移学习方法评估了用于Mel-frequency的声学特征集的有效性。实验结果表明，与卷积神经网络（CNN）和长短期记忆（LSTM）网络相比，这种方法在清洁模式下的识别准确率提高了98.94%，在噪声模式下提高了91.21%。