LLM2D

摘要

arXiv:2406.02345v2 通知类型: replace-cross 摘要：音频和视觉信号通常同时发生，人类具有将这两种模态的信息关联和同步的天生能力。最近，一个名为音频-视觉分割（AVS）的具有挑战性的问题引起了关注，旨在为场景中的声音对象生成分割图。然而，目前提出的方法未能充分整合音频和视觉信息，计算成本极其高昂。此外，不同阶段的输出也未被充分利用。为了促进这项研究，我们引入了一种新型的渐进自信掩蔽注意网络（PMCANet）。该网络利用注意机制揭示音频信号与视觉帧之间的内在关联。此外，我们设计了一个高效且有效的交叉注意模块，通过选择查询令牌来增强语义感知。这一选择基于网络的多阶段预测输出，由信心驱动的单元确定。实验表明，与现有的AVS方法相比，我们的网络在所需计算资源较少的情况下表现出更优的效果。该项目的代码可在以下地址获得：https://github.com/PrettyPlate/PCMANet。