LLM2D

摘要

arXiv:2501.06224v3 通知类型: 替换-交叉摘要：最近，使用统一多模态模型开发的暴力检测系统已经取得了显著的成功并引起了广泛的关注。然而，这些系统主要面临着两个关键挑战：作为黑盒模型的缺乏解释性和功能有限，仅提供分类或检索能力。为了解决这些挑战，本文提出了一种新的可解释暴力检测系统，称之为三位一体（TIO）系统。TIO系统将知识图（KG）和图注意网络（GAT）集成在一起，提供三种核心功能：检测、检索和解释。具体而言，该系统处理包含潜在暴力行为的视频帧以及由大语言模型（LLM）生成的文本描述。系统使用ImageBind生成高维嵌入以构建知识图，使用GAT进行推理，并使用轻量级时间序列模块提取视频嵌入特征。最后一步将分类器和检索器连接起来，以实现多功能输出。知识图的可解释性使系统能够验证每个输出背后的推理过程。此外，本文还介绍了几种轻量级方法来减少TIO系统的资源消耗并提高其效率。在XD-Violence和UCF-Crime数据集上进行的广泛实验验证了所提出系统的有效性。进一步的案例研究揭示了一种有趣的现象：随着旁观者数量的增加，暴力行为的出现频率似乎会降低。