LLM2D
面向关键词的多模态建模以识别委婉语
Keyword-Oriented Multimodal Modeling for Euphemism Identification
作者: Yuxue Hu, Junsong Li, Meixuan Chen, Dongyu Su, Tongguan Wang, Ying Sha
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.21504v1

摘要

arXiv:2503.21504v1 交叉公告类型: 摘要:委婉语识别解码委婉语的真实含义,例如将“weed”(委婉语)与“marijuana”(目标关键词)关联起来,应用于非法文本中,帮助内容审核并对抗地下市场。尽管现有方法主要基于文本,社交媒体的兴起强调了多模态分析的必要性,结合文本、图像和音频。然而,缺乏针对委婉语的多模态数据集限制了进一步的研究。为此,我们将委婉语及其对应的target关键词视为关键词,并首次引入了一个面向关键词的多模态委婉语语料库(KOM-Euph),涉及三个数据集(毒品、武器和性),包括文本、图像和语音。我们进一步提出了一种面向关键词的多模态委婉语识别方法(KOM-EI),该方法使用跨模态特征对齐和动态融合模块,明确利用关键词的视觉和音频特征以高效地识别委婉语。大量的实验表明,KOM-EI 超过了最先进的模型和大型语言模型,并展示了我们多模态数据集的重要性。