LLM2D
Home
Arxiv
返回列表
基于焦点损失的残差卷积神经网络在语音情绪识别中的应用
Focal Loss based Residual Convolutional Neural Network for Speech Emotion Recognition
作者:
Suraj Tripathi, Abhay Kumar, Abhiram Ramesh, Chirag Singh, Promod Yenigalla
发布日期:
4/16/2025
arXiv ID:
oai:arXiv.org:1906.05682v1
摘要
arXiv:1906.05682v1 识别类型: cross 摘要: 本文提出了一种基于语音特征的残差卷积神经网络(ResNet),并在Focal Loss下进行训练,以识别语音中的情绪。研究表明,语音特征,如频谱图和梅尔频率倒谱系数(MFCCs),能够比单纯的文本更好地表征情绪。此外,Focal Loss首次在单阶段目标检测器中使用,已被证明能够更集中地将训练过程集中在困难样本上,并降低对分类良好的样本分配的损失权重,从而防止模型被容易分类的样本所淹没。
查看原文
下载 PDF