摘要
arXiv:2501.19180v1 Announce Type: 对抗
摘要:大型语言模型(LLMs)在广泛的应用中起到了关键作用,但仍然容易受到释放攻击的威胁,这可能导致生成不适当的回答。传统的防御方法,如拒绝和对抗训练,通常无法涵盖边缘情况或稀有领域,使LLMs仍然容易受到更复杂的攻击。我们提出了一种新颖的防御策略——安全思维链(SCoT),该策略利用LLMs增强的**推理能力**,主动评估有害输入,而不只是简单地阻止它们。SCoT将任何拒绝训练的数据集增强,以在生成答案之前仔细分析每个请求的意图。通过采用主动推理,SCoT增强了LLMs在不同类型有害询问和未包含在安全对齐语料库中的场景中的泛化能力。此外,它还会生成详细的拒绝回答,说明违反了哪些规则。比较评估显示,SCoT显著优于现有防御措施,减少了对域外问题和对抗操纵的脆弱性,同时保持了强大的通用能力。