LLM2D

摘要

arXiv:2502.00310v1 交叉公告类型摘要：在人机交互和心理评估领域，语音情绪识别（SER）在从语音信号解码情绪状态方面发挥着重要作用。尽管取得了进展，但由于系统复杂性、特征的独特性问题以及噪声干扰，仍存在挑战。本文介绍了一种新的端到端（E2E）深度学习多分辨率框架用于SER，通过直接从原始波形语音信号中提取有意义的表示来解决这些限制。通过利用快速离散小波变换（FDWT）的特性，包括级联算法、共轭四元滤波器和系数去噪，我们的方法通过深度学习技术引入了可学习的小波基和去噪模型。该框架结合了用于可学习的非对称硬门限的小波系数激活函数。我们的方法利用了小波在时间和频率域中有效定位的能力。然后，我们将一维膨胀卷积神经网络（1D 膨胀 CNN）与空间注意力层以及双向门控递归单元（Bi-GRU）与时间注意力层相结合，以有效地捕捉情感特征的空间和时间细微特征。通过处理没有任何分割的变长语音，并且不需要预处理或后处理，所提出的模型在IEMOCAP和EMO-DB数据集上超过了最先进的方法。本文的源代码已共享在Github存储库：https://github.com/alaaNfissi/SigWavNet-Learning-Multiresolution-Signal-Wavelet-Network-for-Speech-Emotion-Recognition。