摘要
arXiv:2502.00358v1 交叉公告类型
摘要: 与传统视觉分割不同,视听分割(AVS)不仅需要模型识别和分割对象,还需要确定这些对象是否是声源。近期利用变换器架构和强大的基础模型(如SAM)的视听分割方法在标准基准测试上取得了令人印象深刻的表现。然而,仍有一个重要的问题:这些模型是否真正整合了视听线索来分割发声对象?在本文中,我们系统地研究了这个问题在稳健性视听分割的背景下。我们的研究揭示了当前方法的基本偏差:它们倾向于主要基于视觉显著性生成分割掩码,而不考虑音频上下文。这种偏差导致在声音不存在或无关时预测不可靠。为了解决这一挑战,我们引入了AVSBench-Robust这一全面基准,其中包括多种负音频场景,例如静默、背景噪声和幕前声音。我们还提出了一种简单而有效的结合平衡训练、负样本以及分类器引导的相似性学习的方法。我们的大量实验表明,最先进的视听分割方法在负音频条件下表现一致地不佳,这证明了视觉偏差的普遍性。相比之下,我们的方法在标准度量和鲁棒性度量上均实现了显著改进,同时保持了近乎完美的假阳性率和高质量的分割性能。