LLM2D
HateSieve:一种用于检测和分割多模态 meme 中仇恨内容的对比学习框架
HateSieve: A Contrastive Learning Framework for Detecting and Segmenting Hateful Content in Multimodal Memes
作者: Xuanyu Su, Yansong Li, Diana Inkpen, Nathalie Japkowicz
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2408.05794v2

摘要

arXiv:2408.05794v2 类型:替换 摘要:随着大型多模态模型(LMMs)的兴起及其在生成和解释复杂内容方面的广泛应用,传播带有偏见和有害内容的“混淆者表情包”的风险依然显著。当前的安全措施往往无法检测到“混淆者表情包”中隐秘嵌入的仇恨内容。为解决这一问题,我们提出了 \textsc{HateSieve},一种新的框架,旨在增强对表情包中仇恨元素的检测和分割能力。\textsc{HateSieve} 包含一种新颖的对比生成表情包模型,该模型创建语义配对的表情包;一种定制的三元组数据集,用于对比学习;以及一个图像-文本对齐模块,生成上下文意识嵌入,以实现准确的表情包分割。在仇恨表情包数据集上的实证实验表明,\textsc{HateSieve} 不仅在参数数量较少的情况下超过了现有的 LMMs,在性能上也显示出强大的机制,能够精确地识别和隔离仇恨内容。请注意:包含有关仇恨言论的学术讨论;请谨慎观看。