LLM2D

摘要

arXiv:2504.16723v1 交叉类型公告摘要：表情包广泛用于幽默和文化评论，但它们也越来越被用于传播仇恨内容。由于它们的跨模态性质，仇恨表情包往往能够逃避传统的仅文本或仅图像检测系统，尤其是在它们使用微妙的或编码的参考时。为了应对这些挑战，我们提出了一种跨模态仇恨检测框架，该框架整合了关键组件：OCR用于提取嵌入的文本、字幕描述视觉内容、子标签分类以精细分类仇恨内容、基于语境的相关检索RAG，以及迭代分析象征性和语境性线索的VQA。这使得该框架能够发现简单管道无法检测到的潜在信号。实验结果表明，提出的框架在准确性和AUC-ROC方面均优于单模态和传统的跨模态模型，特别是在Facebook仇恨表情包数据集上的表现更为突出。