LLM2D
通过迁移学习提高预训练 YAMNet 的语音命令检测能力
Improving Pretrained YAMNet for Enhanced Speech Command Detection via Transfer Learning
作者: Sidahmed Lachenani, Hamza Kheddar, Mohamed Ouldzmirli
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19030v1

摘要

arXiv:2504.19030v1 类型: cross 摘要: 本文解决了在各种智能应用程序中提升用户交互质量所需提高的语音命令识别系统精确度和效率的需求。本研究利用坚固的预训练 YAMNet 模型和迁移学习,开发了一种显著提高语音命令识别的方法。我们调整并训练了一个 YAMNet 深度学习模型,以有效地从音频信号中检测和解释语音命令。利用广泛标注的 Speech Commands 数据集(speech_commands_v0.01),本方法展示了迁移学习在准确识别预定义语音命令集方面的实际应用。该数据集经过精心扩充,并战略性地提取特征以提高模型性能。结果,最终模型的识别准确率达到了 95.28%,突显了高级机器学习技术对语音命令识别的影响。这一成就标志着在音频处理技术方面的重大进展,并为未来该领域的研究设立了新基准。