摘要
arXiv:2505.00150v1 Announce Type: cross
摘要:社交媒体的快速发展为个人提供了增强的通信渠道,使其能够在网上创建内容并表达思想和观点。多模态的表情包,通常用于带有视觉和文字元素的嬉戏或幽默表达,有时会被滥用以散播针对个人或群体的仇恨言论。尽管对仇恨表情包的检测已得到充分研究,但开发有效的方法来转换仇恨内容仍然是一个重大挑战。借助Vision-Language Models(VLMs)的强大生成和推理能力,我们解决了检测和缓解仇恨内容的任务。本文介绍了两个关键贡献:首先,一种由定义引导的提示技术,用于检测仇恨表情包;其次,一个名为UnHateMeme的统一框架,用于缓解表情包中的仇恨内容,该框架通过替换仇恨文字和/或视觉组件来实现这一目标。借助我们的定义引导提示,VLMs在仇恨表情包检测任务上取得了令人印象深刻的性能。此外,我们的UnHateMeme框架与VLMs集成后,展示了强大的能力,能够将仇恨表情包转化为符合人类标准的非仇恨形式,并保持图像和文本之间的多模态一致性。通过实证实验,我们展示了预训练的LLaVA、Gemini和GPT-4o在所提任务上的有效性,并对其各自的优点和局限性进行了全面分析。本文旨在探讨VLMs在确保安全和尊重的在线环境方面的重要应用。