摘要
arXiv:2411.07751v2 宣布类型: replace-cross
摘要:语音增强在各种应用中扮演着重要角色,而视觉信息的整合已被证明可以带来显著的优势。然而,当前大部分研究主要集中在面部和唇部运动的检查上,在发生遮挡或摄像机视角距离较远的情况下,这些面部和唇部运动可能受损或完全不可用。而环境中的上下文视觉线索已被忽视:例如,当我们听到狗叫声时,我们的大脑自然能够分辨并过滤掉狗叫声。为了解决这一问题,本文引入了一个新的任务,即SAV-SE。据我们所知,这是首次利用同步视频中的丰富上下文信息作为辅助线索来指示噪声类型,最终提高语音增强性能。具体而言,我们提出了VC-S$^2$E方法,该方法结合了Conformer和Mamba模块,利用它们各自的优点。我们在公开的MUSIC、AVSpeech和AudioSet数据集上进行了广泛的实验,结果表明VC-S$^2$E优于其他竞争方法。我们将会公开源代码。项目演示页面:https://AVSEPage.github.io/