LLM2D
复杂语音频谱图的深度学习研究综述
A Survey of Deep Learning for Complex Speech Spectrograms
作者: Yuying Xie, Zheng-Hua Tan
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08694v1

摘要

arXiv:2505.08694v1 交叉类型:公告 摘要:近期深度学习的进步对语音信号处理领域产生了显著影响,特别是在复杂谱图的分析和操作方面。本文综述了利用深度神经网络处理复杂谱图的先进技术和方法,这些技术涵盖了幅度和相位信息。我们首先介绍了复杂谱图及其在各种语音处理任务中相关的特点。接下来,我们探讨了处理复值数据的关键组件和网络架构,这些网络专门设计用于处理复值数据,并已应用于复杂谱图处理中。然后我们讨论了针对处理和建模复杂谱图设计的不同训练策略和损失函数。综述还研究了关键应用,包括相位恢复、语音增强和语音分离,深度学习在这些领域通过利用复杂谱图或其衍生特征表示取得了显著进展。此外,我们还探讨了复杂谱图与生成模型的交叉领域。本文旨在为语音信号处理和复值神经网络领域的研究者和实践者提供一个有价值的资源。