LLM2D

摘要

arXiv:2412.01095v3 通知类型: 替换摘要：视觉语言模型（VLMs）的迅速发展已在视频异常检测（VAD）中建立了新的范式：利用VLMs同时进行异常检测并提供可理解的决策解释。现有工作的这一方向往往假设VAD所需的复杂推理超出了预训练VLM的能力。因此，这些方法要么在推理过程中引入专门的推理模块，要么通过额外训练依赖于指令调优数据集来适应VLMs用于VAD。然而，这些策略往往会产生巨大的计算成本或数据标注负担。为了解决这些可解释VAD中的挑战，我们提出了一种名为VERA的口头学习框架，使VLMs能够在不修改模型参数的情况下执行VAD。具体而言，VERA自动将VAD所需的复杂推理分解为对更简单、更集中指导问题的反思，这些问题捕捉了不同的异常模式。它将这些反思性问题视为可学习的参数，并通过学习者和优化器VLM之间的数据驱动口头交互进行优化，使用粗略标签的训练数据。在推理过程中，VERA将学习到的问题嵌入到模型提示中，以引导VLMs生成段级异常分数，然后通过场景和时间上下文的融合将其提炼为帧级评分。在具有挑战性的基准测试上的实验结果表明，VERA学习到的问题高度适配，显著提高了VLMs在VAD中的检测性能和可解释性。