LLM2D
渐进自信掩码注意力网络用于音频-视觉分割
Progressive Confident Masking Attention Network for Audio-Visual Segmentation
作者: Yuxuan Wang, Jinchao Zhu, Feng Dong, Shuyue Zhu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2406.02345v2

摘要

arXiv:2406.02345v2 通知类型: replace-cross 摘要:音频和视觉信号通常同时发生,人类具有将这两种模态的信息关联和同步的天生能力。最近,一个名为音频-视觉分割(AVS)的具有挑战性的问题引起了关注,旨在为场景中的声音对象生成分割图。然而,目前提出的方法未能充分整合音频和视觉信息,计算成本极其高昂。此外,不同阶段的输出也未被充分利用。为了促进这项研究,我们引入了一种新型的渐进自信掩蔽注意网络(PMCANet)。该网络利用注意机制揭示音频信号与视觉帧之间的内在关联。此外,我们设计了一个高效且有效的交叉注意模块,通过选择查询令牌来增强语义感知。这一选择基于网络的多阶段预测输出,由信心驱动的单元确定。实验表明,与现有的AVS方法相比,我们的网络在所需计算资源较少的情况下表现出更优的效果。该项目的代码可在以下地址获得:https://github.com/PrettyPlate/PCMANet。