LLM2D

摘要

高质量、多样化的有害数据对于解决内容审核中的实时应用至关重要。目前使用GPT系列模型进行有害内容检测的最先进方法成本高昂且缺乏可解释性。本文研究了在开源大型语言模型（LLM）上使用提示工程和微调技术来增强有害数据增强的应用，特别是针对有害内容检测。我们进行了一个两阶段的实证研究，第一阶段评估了六个开源LLM在多个数据集上的表现，仅使用提示工程；第二阶段侧重于微调。我们的研究结果表明，Mistral模型能够在产生有害数据的同时最大限度地减少幻觉。虽然微调这些模型可以提高数据质量和多样性，但数据重复和过拟合等挑战依然存在。我们的实验结果突出了增强有害内容检测系统的可扩展、经济高效的策略。这些发现不仅证明了开源LLM在创建强大的内容审核工具方面的潜力，而且该方法在实际工业场景中的应用进一步证明了微调后的开源LLM用于数据增强的可行性和效率。我们希望我们的研究能够帮助理解当前模型在有害内容检测方面的能力和局限性，并推动该领域的进一步发展。