LLM2D
NoisyHate:挖掘在线人工撰写的扰动以实现内容审核模型现实鲁棒性基准测试
NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models
作者: Yiran Ye, Thai Le, Dongwon Lee
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2303.10430v2

摘要

arXiv:2303.10430v2 宣告类型: replace-cross 摘要:带有有毒内容的在线文本是对社交媒体用户,甚至是对社会的一种明显威胁。尽管许多平台已经采用了各种措施(例如基于机器学习的仇恨言论检测系统)来减轻其影响,但在逃避免疫系统方面,有毒内容的撰写者也尝试通过巧妙修改有毒词汇,即所谓的由人工撰写的文本扰动来规避这些措施。因此,为了帮助构建自动检测工具以识别这些扰动,先前的方法已经开发出了复杂的技术来生成多样化的对抗样本。然而,我们注意到,“算法”生成的扰动未必能够捕捉到“人工”撰写的扰动的所有特征。因此,在本文中,我们介绍了一个名为 NoisyHate 的新型高质量的人工撰写的扰动数据集,该数据集是从人工介入的闭环中撰写的并经过验证的现实生活中实际的扰动创建而来。我们展示了 NoisyHate 中的扰动与先前算法生成的有毒数据集中的扰动具有不同的特征,因此特别有助于开发更有效的有毒言论检测解决方案。我们全面验证了 NoisyHate 对比最先进的语言模型(如 BERT 和 RoBERTa)和黑盒API(如 Perspective API),并在两个任务(如扰动规范化和理解)上进行了测试。