LLM2D

摘要

arXiv:2410.05573v2 宣布类型: replace-cross 摘要：毒性文本检测器可能对对抗样本存在漏洞——对输入文本进行微小篡改，使系统产生错误的检测结果。现有的攻击算法既耗时又经常生成无效或模棱两可的对抗样本，这使得它们在评估或改进现实世界的毒性内容审查中不太有用。本文提出了一种用于生成有毒对抗样本（TAE）质量控制的注解管道。我们设计了基于模型的自动注解和基于人类的质量验证，以评估TAE的质量要求。成功的TAE应能够使目标毒性模型产生非恶意预测，语法合理，看起来像人类生成的文本，并表现出语义毒性。将这些要求应用于20多种最先进的（SOTA）TAE攻击配方时，我们发现从总共940,000个原始TAE攻击生成中有许多无效样本。然后，我们利用提出的管道来筛选和培育一个高质量的TAE数据集，称为TaeBench（包含264,000个样本）。实证研究表明，TaeBench能够有效攻击SOTA毒性内容审核模型和服务。实验还表明，使用TaeBench进行对抗训练可以显著提高两个毒性检测器的鲁棒性。