LLM2D
弱监督声学去混响的混合模型
A Hybrid Model for Weakly-Supervised Speech Dereverberation
作者: Louis Bahrman (S2A, IDS), Mathieu Fontaine (S2A, IDS), Gael Richard (S2A, IDS)
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06839v1

摘要

arXiv:2502.06839v1 交叉公告类型 摘要:本文提出了一种新的训练策略,旨在使用最少的声学信息和回声(湿)语音来提高语音去混响系统的效果。现有的大多数算法依赖配对的干/湿数据,而这种数据难以获得,或者依赖于可能无法充分捕捉混响特性的目标指标,从而可能导致在非目标指标上表现不佳。我们的方法使用有限的声学信息,如混响时间(RT60),来训练一个去混响系统。系统的输出使用生成的房间冲激响应重新合成,并与原始回声语音进行比较,提供了一种新颖的混响匹配损失,替代了标准的目标指标。在推理过程中,仅使用训练好的去混响模型。实验结果表明,我们的方法在各种用于语音去混响的标准目标指标中取得了更加一致的性能,优于最先进的方法。