LLM2D

摘要

arXiv:2502.13458v1 安全类型: cross 摘要：随着大型语言模型（LLMs）在实际应用中部署，确保其安全性变得至关重要。现有的防护措施依赖于基于规则的过滤或单一通道分类，这限制了它们处理复杂安全违规的能力。为了解决这一问题，我们提出了一种名为ThinkGuard的批判增强防护模型，该模型通过生成结构化的批判性意见和安全标签，提炼高容量LLM的知识。通过批判增强的数据进行微调后，捕获的详思能力极大地增强了防护模型的谨慎性和可解释性。在多个安全性基准上进行评估，ThinkGuard在平均F1和AUPRC上取得了最高成绩，超越了所有基线。与LLaMA Guard 3相比，ThinkGuard的准确性提高了16.1%，宏观F1提高了27.0%。此外，它超越了仅利用标签微调的模型，这证实了结构化的批判性意见不仅能增强分类精度，还能促进复杂的安全推理，同时保持计算效率。