LLM2D

摘要

arXiv:2503.19677v1 类型: cross 摘要：本文探讨了通过梅尔频谱图表示的音频文件来使用卷积神经网络（CNNs）对语音中的情绪进行分类的应用。传统的如高斯混合模型和隐马尔可夫模型等方法在实际部署中证明不够充分，促使人们转向深度学习技术。通过将音频数据转化为可视化格式，CNN模型自主学习识别复杂的模式，从而提高分类准确性。开发的模型被集成到用户友好的图形界面中，便于实时预测，并在教育环境中具有潜在应用价值。本研究旨在推进对深度学习在语音情绪识别中的理解，评估模型的可行性，并为在学习环境中集成技术做出贡献。