LLM2D

摘要

arXiv:2504.21366v1 交叉公告类型：摘要：当前的音视频源分离方法主要采用两种设计策略。第一种策略是在编码器的瓶颈层融合音频和视觉特征，然后通过解码器处理融合后的特征。然而，当两种模态之间存在显著差异时，这种做法可能会导致关键信息的丢失。第二种策略避免直接融合，而是依靠解码器来处理音频和视觉特征之间的交互。然而，如果编码器未能充分整合跨模态的信息，解码器可能无法有效地捕捉它们之间的复杂关系。为了应对这些问题，本文提出了一种基于门控机制的动力融合方法，该方法动态调整模态融合程度。这种方法缓解了仅依赖解码器的局限性，促进了音频和视觉特征的有效合作。此外，引入了一个音频注意力模块，以增强音频特征的表达能力，从而进一步提升模型性能。实验结果表明，我们的方法在两个基准数据集上实现了显著的性能提升，验证了其在音视频源分离任务中的有效性和优势。