摘要
arXiv:2502.00310v1 交叉公告类型
摘要:在人机交互和心理评估领域,语音情绪识别(SER)在从语音信号解码情绪状态方面发挥着重要作用。尽管取得了进展,但由于系统复杂性、特征的独特性问题以及噪声干扰,仍存在挑战。本文介绍了一种新的端到端(E2E)深度学习多分辨率框架用于SER,通过直接从原始波形语音信号中提取有意义的表示来解决这些限制。通过利用快速离散小波变换(FDWT)的特性,包括级联算法、共轭四元滤波器和系数去噪,我们的方法通过深度学习技术引入了可学习的小波基和去噪模型。该框架结合了用于可学习的非对称硬门限的小波系数激活函数。我们的方法利用了小波在时间和频率域中有效定位的能力。然后,我们将一维膨胀卷积神经网络(1D 膨胀 CNN)与空间注意力层以及双向门控递归单元(Bi-GRU)与时间注意力层相结合,以有效地捕捉情感特征的空间和时间细微特征。通过处理没有任何分割的变长语音,并且不需要预处理或后处理,所提出的模型在IEMOCAP和EMO-DB数据集上超过了最先进的方法。本文的源代码已共享在Github存储库:https://github.com/alaaNfissi/SigWavNet-Learning-Multiresolution-Signal-Wavelet-Network-for-Speech-Emotion-Recognition。