LLM2D

摘要

arXiv:2412.01095v2 宣告类型: 替换摘要: 视觉语言模型（VLMs）的快速发展已经为视频异常检测（VAD）奠定了新的范式：利用VLMs同时检测异常并提供可理解的决策解释。现有工作中，这些方法常常假设用于VAD所需的复杂推理超出了预训练VLM的能力。因此，这些方法要么在推理过程中引入专门的推理模块，要么依赖于附加训练和指令调优数据集来适应VLM以用于VAD。然而，这些策略往往涉及巨大的计算成本或数据注释开销。为了解决可解释VAD中的这些挑战，我们引入了一个名为VERA的言文本学习框架，该框架使VLMs能够进行VAD而无需修改模型参数。具体而言，VERA自动将用于VAD所需的复杂推理分解为简单的、更聚焦的引导问题的反思，这些问题捕获了不同的异常模式。它将这些反思性问题视为可学习参数，并通过学习者和优化器VLM之间的数据驱动的言语互动进行优化，使用粗糙标记的训练数据。在推理过程中，VERA将学习到的问题嵌入到模型提示中，以指导VLMs生成段级异常评分，然后通过场景和时间上下文的融合将这些评分提炼为帧级评分。在具有挑战性的基准上的实验结果表明，VERA学习到的问题具有高度的适应性，显著提升了VLMs在VAD中的检测性能和可解释性。