摘要
arXiv:2504.21226v2 宣告类型: replace-cross
摘要:Memes 往往将视觉元素与简短的文字结合起来分享幽默或观点,但一些 meme 包含有害信息,如仇恨言论。在这篇论文中,我们介绍了一个轻量级的多模态系统 MemeBLIP2,该系统通过有效结合图像和文本特征来检测有害 meme。我们在先前研究的基础上增加了模块,将图像和文本表示映射到共享空间并融合它们以提高分类效果。以 BLIP-2 为核心视觉语言模型,我们的系统在 PrideMM 数据集上进行了评估。结果显示,MemeBLIP2 能够捕捉到两个模式中的微妙线索,即使是在具有讽刺性或文化特定内容的情况下,从而提高了有害内容的检测效果。