摘要
社交媒体的广泛使用要求可靠高效地检测攻击性内容,以减轻其有害影响。尽管先进的模型在单个数据集上表现良好,但由于对“攻击性内容”的定义和标注各不相同,它们往往难以泛化。本文介绍了 HateCOT,一个包含超过 52,000 个样本的英语数据集,这些样本来自不同的来源,并包含由 GPT-3.5Turbo 生成的解释,并经过人工整理。我们证明了在 HateCOT 上进行预训练显着提高了开源大型语言模型在三个基准数据集上的性能,这些数据集用于在零样本和少样本设置下检测攻击性内容,尽管存在领域和任务差异。此外,HateCOT 促进了大型语言模型在数据有限的情况下进行有效的 K-shot 微调,并提高了其解释的质量,这一点得到了我们的人工评估的证实。