摘要
arXiv:2502.13458v1 安全类型: cross
摘要:随着大型语言模型(LLMs)在实际应用中部署,确保其安全性变得至关重要。现有的防护措施依赖于基于规则的过滤或单一通道分类,这限制了它们处理复杂安全违规的能力。为了解决这一问题,我们提出了一种名为ThinkGuard的批判增强防护模型,该模型通过生成结构化的批判性意见和安全标签,提炼高容量LLM的知识。通过批判增强的数据进行微调后,捕获的详思能力极大地增强了防护模型的谨慎性和可解释性。在多个安全性基准上进行评估,ThinkGuard在平均F1和AUPRC上取得了最高成绩,超越了所有基线。与LLaMA Guard 3相比,ThinkGuard的准确性提高了16.1%,宏观F1提高了27.0%。此外,它超越了仅利用标签微调的模型,这证实了结构化的批判性意见不仅能增强分类精度,还能促进复杂的安全推理,同时保持计算效率。