LLM2D

摘要

arXiv:2504.19030v1 类型: cross 摘要: 本文解决了在各种智能应用程序中提升用户交互质量所需提高的语音命令识别系统精确度和效率的需求。本研究利用坚固的预训练 YAMNet 模型和迁移学习，开发了一种显著提高语音命令识别的方法。我们调整并训练了一个 YAMNet 深度学习模型，以有效地从音频信号中检测和解释语音命令。利用广泛标注的 Speech Commands 数据集（speech_commands_v0.01），本方法展示了迁移学习在准确识别预定义语音命令集方面的实际应用。该数据集经过精心扩充，并战略性地提取特征以提高模型性能。结果，最终模型的识别准确率达到了 95.28%，突显了高级机器学习技术对语音命令识别的影响。这一成就标志着在音频处理技术方面的重大进展，并为未来该领域的研究设立了新基准。