LLM2D
通过配图说明和视觉问答检测和理解_memes中的仇恨内容
Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering
作者: Ali Anaissi, Junaid Akram, Kunal Chaturvedi, Ali Braytee
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16723v1

摘要

arXiv:2504.16723v1 交叉类型公告 摘要:表情包广泛用于幽默和文化评论,但它们也越来越被用于传播仇恨内容。由于它们的跨模态性质,仇恨表情包往往能够逃避传统的仅文本或仅图像检测系统,尤其是在它们使用微妙的或编码的参考时。为了应对这些挑战,我们提出了一种跨模态仇恨检测框架,该框架整合了关键组件:OCR用于提取嵌入的文本、字幕描述视觉内容、子标签分类以精细分类仇恨内容、基于语境的相关检索RAG,以及迭代分析象征性和语境性线索的VQA。这使得该框架能够发现简单管道无法检测到的潜在信号。实验结果表明,提出的框架在准确性和AUC-ROC方面均优于单模态和传统的跨模态模型,特别是在Facebook仇恨表情包数据集上的表现更为突出。