摘要
arXiv:2504.21226v1 Announce Type: cross
摘要:毛片通常将视觉元素与简短的文字结合以分享幽默或意见,但其中一些毛片包含有害信息,如仇恨言论。在这篇论文中,我们介绍了MemeBLIP2,这是一个轻量级的多模态系统,通过有效地结合图像和文本特征来检测有害毛片。我们基于先前的研究,在系统中增加了将图像和文本表示纳入共享空间并融合它们以实现更好分类的模块。以BLIP-2为核心视觉-语言模型,我们的系统在PrideMM数据集中进行了评估。结果显示,MemeBLIP2可以捕捉到两种模态中的微妙线索,即使在讽刺或文化特定的内容情况下也能更好地检测有害内容。