LLM2D
语音增强:用于真无线耳机的低延迟实时语音增强
Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds
作者: Hanbin Bae, Pavel Andreev, Azat Saginbaev, Nicholas Babaev, Won-Jun Lee, Hosang Sung, Hoon-Young Cho
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18705v1

摘要

针对真无线立体声 (TWS) 耳机设备使用而设计的语音增强解决方案。该解决方案专门为在嘈杂环境中进行对话而设计,并激活了主动降噪 (ANC)。在这种情况下,语音增强模型的主要挑战源于计算复杂度限制了设备使用,以及必须小于 3 毫秒的延迟以保持实时对话。为了解决这些问题,我们评估了几个关键的设计元素,包括网络架构和领域、损失函数的设计、剪枝方法和硬件特定的优化。因此,我们证明了与基线模型相比,语音增强质量有了显着提高,同时降低了计算复杂度和算法延迟。