LLM2D

摘要

arXiv:2408.05794v2 类型：替换摘要：随着大型多模态模型（LMMs）的兴起及其在生成和解释复杂内容方面的广泛应用，传播带有偏见和有害内容的“混淆者表情包”的风险依然显著。当前的安全措施往往无法检测到“混淆者表情包”中隐秘嵌入的仇恨内容。为解决这一问题，我们提出了 \textsc{HateSieve}，一种新的框架，旨在增强对表情包中仇恨元素的检测和分割能力。\textsc{HateSieve} 包含一种新颖的对比生成表情包模型，该模型创建语义配对的表情包；一种定制的三元组数据集，用于对比学习；以及一个图像-文本对齐模块，生成上下文意识嵌入，以实现准确的表情包分割。在仇恨表情包数据集上的实证实验表明，\textsc{HateSieve} 不仅在参数数量较少的情况下超过了现有的 LMMs，在性能上也显示出强大的机制，能够精确地识别和隔离仇恨内容。请注意：包含有关仇恨言论的学术讨论；请谨慎观看。