摘要
arXiv:2412.01095v3 通知类型: 替换
摘要:视觉语言模型(VLMs)的迅速发展已在视频异常检测(VAD)中建立了新的范式:利用VLMs同时进行异常检测并提供可理解的决策解释。现有工作的这一方向往往假设VAD所需的复杂推理超出了预训练VLM的能力。因此,这些方法要么在推理过程中引入专门的推理模块,要么通过额外训练依赖于指令调优数据集来适应VLMs用于VAD。然而,这些策略往往会产生巨大的计算成本或数据标注负担。为了解决这些可解释VAD中的挑战,我们提出了一种名为VERA的口头学习框架,使VLMs能够在不修改模型参数的情况下执行VAD。具体而言,VERA自动将VAD所需的复杂推理分解为对更简单、更集中指导问题的反思,这些问题捕捉了不同的异常模式。它将这些反思性问题视为可学习的参数,并通过学习者和优化器VLM之间的数据驱动口头交互进行优化,使用粗略标签的训练数据。在推理过程中,VERA将学习到的问题嵌入到模型提示中,以引导VLMs生成段级异常分数,然后通过场景和时间上下文的融合将其提炼为帧级评分。在具有挑战性的基准测试上的实验结果表明,VERA学习到的问题高度适配,显著提高了VLMs在VAD中的检测性能和可解释性。