摘要
arXiv:2410.05573v1 宣传类型:跨学科
摘要:毒性文本检测器可能容易受到对抗性示例的影响—输入文本的小幅扰动,导致系统错误地检测。现有的攻击算法费时且通常会产生无效或模棱两可的对抗性示例,这使得它们在评估或改进现实世界的毒性内容审查系统方面不太有用。本文提出了一种生成毒性对抗性示例(TAE)的质量控制注释管道。我们设计了基于模型的自动注释和基于人工的质量验证来评估TAE的质量要求。成功的TAE应该能够欺骗目标毒性模型产生良性预测,语义合理,看起来像自然生成的文本,并表现出语义毒性。当将这些要求应用于超过20种最新的(SOTA)TAE攻击配方时,我们发现总计940,000个原始TAE攻击生成中有许多无效样本。然后我们利用提出的管道过滤和编目了一个高质量的TAE数据集,命名为TaeBench(规模为264,000)。实证结果表明,TaeBench可以有效地转移攻击最新的毒性内容审查模型和服务。我们的实验还表明,使用对抗性训练的TaeBench可以显著提高两个毒性检测器的鲁棒性。