摘要
arXiv:2409.14740v2 Announce Type: replace-cross
摘要:在不同的自然语言处理任务中,在线环境中检测有害内容至关重要,尤其是在社交媒体日益影响社会的情况下。然而,之前的研究所存在的主要问题有两个:1) 资源稀缺环境下的数据不足,以及2) 判断有害内容的标准和定义不一致,这要求分类模型能够抵御虚假特征并适应多种情况。我们提出了Toxicraft,一种新型框架,用于合成有害信息的数据集以解决这些弱点。仅使用少量种子数据,我们的框架可以生成多种多样但极为逼真的有害信息示例。在不同数据集上的实验展示了检测模型的显著增强的稳健性和适应性,超过了或接近于黄金标准。