摘要
arXiv:2410.17922v2 安全公告类型: 重置
摘要:随着大型语言模型(LLMs)的广泛部署,确保其安全性变得越来越关键。然而,现有的防御方法在应对两大关键问题时往往效果不佳:(i) 防御能力不足,特别是在化学等特定领域场景中,缺乏专门知识会导致生成对恶意查询有害的响应。(ii) 过度防御,这会牺牲LLMs的一般用途和响应能力。为了解决这些问题,我们提出了一种基于多代理的防御框架,名为Guide for Defense(G4D),该框架利用精确的外部信息提供无偏见的用户意图总结和基于分析的安全响应指导。广泛的实验表明,在流行的安全突破攻击和良性数据集上,我们的G4D能够在不牺牲模型一般功能的情况下,增强LLMs在通用和特定领域场景下的稳健性。