摘要
arXiv:2504.19333v2 任务类型: 替换交叉
摘要: 使用大规模语言模型(LLMs)来防止不良行为的趋势正在增加,并且已经展示了对审查用户输入的潜力。然而,增加的延迟、内存消耗、托管费用和非结构化的输出可能会使其使用变得不可行。
在这项工作中,我们展示了任务特定的数据生成可以导致显著优于当前最先进的方法(SoTA)的微调分类器,同时其大小比当前方法小了几个数量级。其次,我们展示了使用一个模型 \texttt{MultiTaskGuard},该模型在大量合成生成的数据集上预训练,具有独特的任务说明,进一步提高了泛化能力。第三,我们使用我们提出的基于搜索的方法合并单策略模型和多策略护栏模型来找到最佳参数组合的方法,从而发现性能最佳的模型 \texttt{UniGuard}。我们在这项工作中,在7个公开数据集和4个护栏基准上创建的高效护栏分类器相比于最出色的公开可用的LLM和第三方护栏API,在检测不安全和安全行为方面平均提高了29.92个F1分数(相对于Aegis-LlamaGuard)和21.62个F1分数(相对于\texttt{gpt-4o})。最后,我们使用定制的任务特定护栏策略生成合成数据的过程进一步增强了这一效果。