LLM2D

摘要

arXiv:2502.00358v1 交叉公告类型摘要: 与传统视觉分割不同，视听分割（AVS）不仅需要模型识别和分割对象，还需要确定这些对象是否是声源。近期利用变换器架构和强大的基础模型（如SAM）的视听分割方法在标准基准测试上取得了令人印象深刻的表现。然而，仍有一个重要的问题：这些模型是否真正整合了视听线索来分割发声对象？在本文中，我们系统地研究了这个问题在稳健性视听分割的背景下。我们的研究揭示了当前方法的基本偏差：它们倾向于主要基于视觉显著性生成分割掩码，而不考虑音频上下文。这种偏差导致在声音不存在或无关时预测不可靠。为了解决这一挑战，我们引入了AVSBench-Robust这一全面基准，其中包括多种负音频场景，例如静默、背景噪声和幕前声音。我们还提出了一种简单而有效的结合平衡训练、负样本以及分类器引导的相似性学习的方法。我们的大量实验表明，最先进的视听分割方法在负音频条件下表现一致地不佳，这证明了视觉偏差的普遍性。相比之下，我们的方法在标准度量和鲁棒性度量上均实现了显著改进，同时保持了近乎完美的假阳性率和高质量的分割性能。