LLM2D

摘要

arXiv:2501.06224v2 公告类型: replace-cross 摘要：最近，使用统一多模态模型开发的暴力检测系统已经取得了显著的成功并引起了广泛的关注。然而，这些系统大多面临着两个关键挑战：作为黑盒模型缺乏可解释性以及功能有限，只能提供分类或检索功能。为了解决这些挑战，本文提出了一种新的可解释暴力检测系统，称为三位一体系统（Three-in-One，简称TIO系统）。TIO系统结合了知识图谱（KG）和图注意力网络（GAT）来提供三个核心功能：检测、检索和解释。具体来说，系统处理包含潜在暴力行为的视频帧及其由大语言模型（LLM）生成的文字描述。它使用ImageBind生成高维嵌入以构建知识图谱，使用GAT进行推理，并应用轻量级时间序列模块提取视频嵌入特征。最终步骤是将分类器和检索器连接起来，以实现多功能输出。知识图谱的可解释性使系统能够验证每个输出背后的推理过程。此外，论文还介绍了几种轻量级方法，以减少TIO系统的资源消耗并提高其效率。在XD-Violence和UCF-Crime数据集上的广泛实验验证了所提系统的有效性。一个案例研究进一步揭示了一个有趣的现象：随着旁观者数量的增加，暴力行为的发生率似乎会下降。