摘要
arXiv:2408.05794v2 类型:替换
摘要:随着大型多模态模型(LMMs)的兴起及其在生成和解释复杂内容方面的广泛应用,传播带有偏见和有害内容的“混淆者表情包”的风险依然显著。当前的安全措施往往无法检测到“混淆者表情包”中隐秘嵌入的仇恨内容。为解决这一问题,我们提出了 \textsc{HateSieve},一种新的框架,旨在增强对表情包中仇恨元素的检测和分割能力。\textsc{HateSieve} 包含一种新颖的对比生成表情包模型,该模型创建语义配对的表情包;一种定制的三元组数据集,用于对比学习;以及一个图像-文本对齐模块,生成上下文意识嵌入,以实现准确的表情包分割。在仇恨表情包数据集上的实证实验表明,\textsc{HateSieve} 不仅在参数数量较少的情况下超过了现有的 LMMs,在性能上也显示出强大的机制,能够精确地识别和隔离仇恨内容。请注意:包含有关仇恨言论的学术讨论;请谨慎观看。