LLM2D

摘要

arXiv:2409.12444v1 公告类型: 交叉摘要: 双耳语音增强（BSE）旨在同时提高听觉设备接收到的噪声信号的语音质量和可懂度，并保留目标的空间线索，以实现自然的听觉体验。现有方法往往在噪声抑制（NR）能力和空间线索保留（SCP）准确性之间做出妥协，并且在复杂声学场景中计算需求较高。在这项工作中，我们提出了一种基于学习的轻量级双耳复杂卷积网络（LBCCN），该网络通过过滤低频带并保留其余部分来在NR方面表现出色。此外，我们的方法明确纳入了通道间相对声学传递函数的估计，以确保空间线索的保真度和语音清晰度。结果表明，所提出的LBCCN在各种噪声条件下可以达到与最先进方法相当的NR性能，但计算成本更低，SCP效果更好。可复现代码和音频示例可在https://github.com/jywanng/LBCCN获取。