LLM2D

摘要

arXiv:2503.21504v1 交叉公告类型：摘要：委婉语识别解码委婉语的真实含义，例如将“weed”（委婉语）与“marijuana”（目标关键词）关联起来，应用于非法文本中，帮助内容审核并对抗地下市场。尽管现有方法主要基于文本，社交媒体的兴起强调了多模态分析的必要性，结合文本、图像和音频。然而，缺乏针对委婉语的多模态数据集限制了进一步的研究。为此，我们将委婉语及其对应的target关键词视为关键词，并首次引入了一个面向关键词的多模态委婉语语料库（KOM-Euph），涉及三个数据集（毒品、武器和性），包括文本、图像和语音。我们进一步提出了一种面向关键词的多模态委婉语识别方法（KOM-EI），该方法使用跨模态特征对齐和动态融合模块，明确利用关键词的视觉和音频特征以高效地识别委婉语。大量的实验表明，KOM-EI 超过了最先进的模型和大型语言模型，并展示了我们多模态数据集的重要性。