LLM2D

摘要

arXiv:1906.05682v1 识别类型: cross 摘要: 本文提出了一种基于语音特征的残差卷积神经网络（ResNet），并在Focal Loss下进行训练，以识别语音中的情绪。研究表明，语音特征，如频谱图和梅尔频率倒谱系数（MFCCs），能够比单纯的文本更好地表征情绪。此外，Focal Loss首次在单阶段目标检测器中使用，已被证明能够更集中地将训练过程集中在困难样本上，并降低对分类良好的样本分配的损失权重，从而防止模型被容易分类的样本所淹没。