摘要
arXiv:2504.16723v1 交叉类型公告
摘要:表情包广泛用于幽默和文化评论,但它们也越来越被用于传播仇恨内容。由于它们的跨模态性质,仇恨表情包往往能够逃避传统的仅文本或仅图像检测系统,尤其是在它们使用微妙的或编码的参考时。为了应对这些挑战,我们提出了一种跨模态仇恨检测框架,该框架整合了关键组件:OCR用于提取嵌入的文本、字幕描述视觉内容、子标签分类以精细分类仇恨内容、基于语境的相关检索RAG,以及迭代分析象征性和语境性线索的VQA。这使得该框架能够发现简单管道无法检测到的潜在信号。实验结果表明,提出的框架在准确性和AUC-ROC方面均优于单模态和传统的跨模态模型,特别是在Facebook仇恨表情包数据集上的表现更为突出。