LLM2D

摘要

在不同的自然语言处理任务中，检测有害内容对于在线环境至关重要，尤其是在社交媒体影响力日益增强的背景下。然而，以往的研究存在两个主要问题：1) 在低资源环境下缺乏数据；2) 对有害内容的定义和判断标准不一致，要求分类模型对虚假特征和多样性具有鲁棒性。我们提出了Toxicraft，这是一种新颖的框架，用于合成有害信息数据集，以解决这些弱点。仅使用少量种子数据，我们的框架就能生成各种合成但极其逼真的有害信息示例。在各种数据集上的实验展示了检测模型鲁棒性和适应性的显著提升，性能超越或接近金标准标签。我们将在接受后在Github上发布生成的数据。