LLM2D

摘要

arXiv:2504.19333v1 Announce Type: cross 摘要：大型语言模型（LLMs）用于防止不良行为的趋势正在增加，并显示出在审查用户输入方面的潜力。然而，增加的延迟、内存消耗、托管费用和非结构化输出可能使其使用变得不可行。在这项工作中，我们展示了针对特定任务的数据生成可以导致显著优于当前最佳实践（SoTA）的微调分类器，同时其规模小了多个数量级。其次，我们展示了使用一个在大量合成生成数据集上预训练的多任务模型`MultiTaskGuard`，进一步提高了泛化能力。第三，我们通过我们提出的基于搜索的模型合并方法找到了最优参数组合，该方法结合了单策略模型和多策略护栏模型，从而发现性能最佳的模型`UniGuard`。在7个公开数据集和4个护栏基准中，我们的高效护栏分类器在检测不安全和安全行为方面分别比Aegis-LlamaGuard的平均F1分数提高了29.92个点，比`gpt-4o`提高了21.62个点。最后，我们的护栏合成数据生成过程使用自定义任务特定护栏策略，