LLM2D
DGFNet:基于动态门控融合的端到端音频-视觉源分离
DGFNet: End-to-End Audio-Visual Source Separation Based on Dynamic Gating Fusion
作者: Yinfeng Yu, Shiyu Sun
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21366v1

摘要

arXiv:2504.21366v1 交叉公告类型: 摘要:当前的音视频源分离方法主要采用两种设计策略。第一种策略是在编码器的瓶颈层融合音频和视觉特征,然后通过解码器处理融合后的特征。然而,当两种模态之间存在显著差异时,这种做法可能会导致关键信息的丢失。第二种策略避免直接融合,而是依靠解码器来处理音频和视觉特征之间的交互。然而,如果编码器未能充分整合跨模态的信息,解码器可能无法有效地捕捉它们之间的复杂关系。为了应对这些问题,本文提出了一种基于门控机制的动力融合方法,该方法动态调整模态融合程度。这种方法缓解了仅依赖解码器的局限性,促进了音频和视觉特征的有效合作。此外,引入了一个音频注意力模块,以增强音频特征的表达能力,从而进一步提升模型性能。实验结果表明,我们的方法在两个基准数据集上实现了显著的性能提升,验证了其在音视频源分离任务中的有效性和优势。