LLM2D

摘要

arXiv:2505.00150v1 Announce Type: cross 摘要：社交媒体的快速发展为个人提供了增强的通信渠道，使其能够在网上创建内容并表达思想和观点。多模态的表情包，通常用于带有视觉和文字元素的嬉戏或幽默表达，有时会被滥用以散播针对个人或群体的仇恨言论。尽管对仇恨表情包的检测已得到充分研究，但开发有效的方法来转换仇恨内容仍然是一个重大挑战。借助Vision-Language Models（VLMs）的强大生成和推理能力，我们解决了检测和缓解仇恨内容的任务。本文介绍了两个关键贡献：首先，一种由定义引导的提示技术，用于检测仇恨表情包；其次，一个名为UnHateMeme的统一框架，用于缓解表情包中的仇恨内容，该框架通过替换仇恨文字和/或视觉组件来实现这一目标。借助我们的定义引导提示，VLMs在仇恨表情包检测任务上取得了令人印象深刻的性能。此外，我们的UnHateMeme框架与VLMs集成后，展示了强大的能力，能够将仇恨表情包转化为符合人类标准的非仇恨形式，并保持图像和文本之间的多模态一致性。通过实证实验，我们展示了预训练的LLaVA、Gemini和GPT-4o在所提任务上的有效性，并对其各自的优点和局限性进行了全面分析。本文旨在探讨VLMs在确保安全和尊重的在线环境方面的重要应用。