摘要
arXiv:2504.21366v1 交叉公告类型:
摘要:当前的音视频源分离方法主要采用两种设计策略。第一种策略是在编码器的瓶颈层融合音频和视觉特征,然后通过解码器处理融合后的特征。然而,当两种模态之间存在显著差异时,这种做法可能会导致关键信息的丢失。第二种策略避免直接融合,而是依靠解码器来处理音频和视觉特征之间的交互。然而,如果编码器未能充分整合跨模态的信息,解码器可能无法有效地捕捉它们之间的复杂关系。为了应对这些问题,本文提出了一种基于门控机制的动力融合方法,该方法动态调整模态融合程度。这种方法缓解了仅依赖解码器的局限性,促进了音频和视觉特征的有效合作。此外,引入了一个音频注意力模块,以增强音频特征的表达能力,从而进一步提升模型性能。实验结果表明,我们的方法在两个基准数据集上实现了显著的性能提升,验证了其在音视频源分离任务中的有效性和优势。