LLM2D
思辨性慢思考导致谨慎的边界设置
ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails
作者: Xiaofei Wen, Wenxuan Zhou, Wenjie Jacky Mo, Muhao Chen
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13458v1

摘要

arXiv:2502.13458v1 安全类型: cross 摘要:随着大型语言模型(LLMs)在实际应用中部署,确保其安全性变得至关重要。现有的防护措施依赖于基于规则的过滤或单一通道分类,这限制了它们处理复杂安全违规的能力。为了解决这一问题,我们提出了一种名为ThinkGuard的批判增强防护模型,该模型通过生成结构化的批判性意见和安全标签,提炼高容量LLM的知识。通过批判增强的数据进行微调后,捕获的详思能力极大地增强了防护模型的谨慎性和可解释性。在多个安全性基准上进行评估,ThinkGuard在平均F1和AUPRC上取得了最高成绩,超越了所有基线。与LLaMA Guard 3相比,ThinkGuard的准确性提高了16.1%,宏观F1提高了27.0%。此外,它超越了仅利用标签微调的模型,这证实了结构化的批判性意见不仅能增强分类精度,还能促进复杂的安全推理,同时保持计算效率。