LLM2D

摘要

arXiv:2411.15175v3 宣布类型: replace-cross 摘要：有效的有毒内容检测高度依赖于高质量和多样化的数据，这些数据是构建稳健内容审核模型的基础。合成数据已成为在各种NLP任务中训练模型的常见方法。然而，对于像仇恨言论检测这样高度主观的任务，其有效性仍然存在不确定性，之前的研究所取得的结果不一。本研究探讨了开源LLM在有害数据合成方面的潜力，利用受控提示和监督微调技术以提高数据质量和多样性。我们系统地评估了6个开源LLM在5个数据集上的表现，评估它们生成多样化、高质量有害数据的能力，同时尽量减少幻觉和重复现象。我们的结果显示，Mistral持续表现出色，而监督微调显著提高了数据可靠性和多样性。我们进一步分析了基于提示和微调的有害数据合成之间的权衡，讨论了实际部署的挑战，并强调了伦理问题。我们的研究结果表明，微调的开源LLM提供了可扩展且低成本的解决方案，以增强有毒内容检测数据集，为更易于访问和透明的内容审核工具铺平了道路。