LLM2D

摘要

arXiv:2504.21226v2 宣告类型: replace-cross 摘要：Memes 往往将视觉元素与简短的文字结合起来分享幽默或观点，但一些 meme 包含有害信息，如仇恨言论。在这篇论文中，我们介绍了一个轻量级的多模态系统 MemeBLIP2，该系统通过有效结合图像和文本特征来检测有害 meme。我们在先前研究的基础上增加了模块，将图像和文本表示映射到共享空间并融合它们以提高分类效果。以 BLIP-2 为核心视觉语言模型，我们的系统在 PrideMM 数据集上进行了评估。结果显示，MemeBLIP2 能够捕捉到两个模式中的微妙线索，即使是在具有讽刺性或文化特定内容的情况下，从而提高了有害内容的检测效果。