摘要
arXiv:2410.05573v2 宣布类型: replace-cross
摘要:毒性文本检测器可能对对抗样本存在漏洞——对输入文本进行微小篡改,使系统产生错误的检测结果。现有的攻击算法既耗时又经常生成无效或模棱两可的对抗样本,这使得它们在评估或改进现实世界的毒性内容审查中不太有用。本文提出了一种用于生成有毒对抗样本(TAE)质量控制的注解管道。我们设计了基于模型的自动注解和基于人类的质量验证,以评估TAE的质量要求。成功的TAE应能够使目标毒性模型产生非恶意预测,语法合理,看起来像人类生成的文本,并表现出语义毒性。将这些要求应用于20多种最先进的(SOTA)TAE攻击配方时,我们发现从总共940,000个原始TAE攻击生成中有许多无效样本。然后,我们利用提出的管道来筛选和培育一个高质量的TAE数据集,称为TaeBench(包含264,000个样本)。实证研究表明,TaeBench能够有效攻击SOTA毒性内容审核模型和服务。实验还表明,使用TaeBench进行对抗训练可以显著提高两个毒性检测器的鲁棒性。