LLM2D
ToxiLab: 开源大语言模型生成合成毒性数据的效果如何؟
ToxiLab: How Well Do Open-Source LLMs Generate Synthetic Toxicity Data?
作者: Zheng Hui, Zhaoxiao Guo, Hang Zhao, Juanyong Duan, Lin Ai, Yinheng Li, Julia Hirschberg, Congrui Huang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2411.15175v3

摘要

arXiv:2411.15175v3 宣布类型: replace-cross 摘要:有效的有毒内容检测高度依赖于高质量和多样化的数据,这些数据是构建稳健内容审核模型的基础。合成数据已成为在各种NLP任务中训练模型的常见方法。然而,对于像仇恨言论检测这样高度主观的任务,其有效性仍然存在不确定性,之前的研究所取得的结果不一。本研究探讨了开源LLM在有害数据合成方面的潜力,利用受控提示和监督微调技术以提高数据质量和多样性。我们系统地评估了6个开源LLM在5个数据集上的表现,评估它们生成多样化、高质量有害数据的能力,同时尽量减少幻觉和重复现象。我们的结果显示,Mistral持续表现出色,而监督微调显著提高了数据可靠性和多样性。我们进一步分析了基于提示和微调的有害数据合成之间的权衡,讨论了实际部署的挑战,并强调了伦理问题。我们的研究结果表明,微调的开源LLM提供了可扩展且低成本的解决方案,以增强有毒内容检测数据集,为更易于访问和透明的内容审核工具铺平了道路。