摘要
在不同的自然语言处理任务中,检测有害内容对于在线环境至关重要,尤其是在社交媒体影响力日益增强的背景下。然而,以往的研究存在两个主要问题:1) 在低资源环境下缺乏数据;2) 对有害内容的定义和判断标准不一致,要求分类模型对虚假特征和多样性具有鲁棒性。我们提出了Toxicraft,这是一种新颖的框架,用于合成有害信息数据集,以解决这些弱点。仅使用少量种子数据,我们的框架就能生成各种合成但极其逼真的有害信息示例。在各种数据集上的实验展示了检测模型鲁棒性和适应性的显著提升,性能超越或接近金标准标签。我们将在接受后在Github上发布生成的数据。