摘要
arXiv:2412.01095v2 宣告类型: 替换
摘要: 视觉语言模型(VLMs)的快速发展已经为视频异常检测(VAD)奠定了新的范式:利用VLMs同时检测异常并提供可理解的决策解释。现有工作中,这些方法常常假设用于VAD所需的复杂推理超出了预训练VLM的能力。因此,这些方法要么在推理过程中引入专门的推理模块,要么依赖于附加训练和指令调优数据集来适应VLM以用于VAD。然而,这些策略往往涉及巨大的计算成本或数据注释开销。为了解决可解释VAD中的这些挑战,我们引入了一个名为VERA的言文本学习框架,该框架使VLMs能够进行VAD而无需修改模型参数。具体而言,VERA自动将用于VAD所需的复杂推理分解为简单的、更聚焦的引导问题的反思,这些问题捕获了不同的异常模式。它将这些反思性问题视为可学习参数,并通过学习者和优化器VLM之间的数据驱动的言语互动进行优化,使用粗糙标记的训练数据。在推理过程中,VERA将学习到的问题嵌入到模型提示中,以指导VLMs生成段级异常评分,然后通过场景和时间上下文的融合将这些评分提炼为帧级评分。在具有挑战性的基准上的实验结果表明,VERA学习到的问题具有高度的适应性,显著提升了VLMs在VAD中的检测性能和可解释性。