摘要
arXiv:2402.13517v2 社工型攻击类型: 互换交叉
摘要:大型语言模型(LLMs)容易受到社工型攻击的影响,这类攻击具有人类可解释性,但需要较高的理解水平才能被LLMs防御。现有的防御措施最多只能减轻少于一半的这些攻击。为了解决这一问题,我们提出了往返翻译(RTT)方法,这是第一个专门设计用于防御社工型攻击的算法。RTT重述了敌对提示,并泛化了所传达的想法,使LLMs更容易检测到诱导的有害行为。该方法具有通用性、轻量级且可以转移应用于不同的LLMs。我们的防御成功缓解了超过70%的提示自动迭代细化(PAIR)攻击,这是目前我们所知最有效的防御。我们也是第一个尝试缓解MathsAttack并使其攻击成功率降低了近40%的人。我们的代码已公开可在 https://github.com/Cancanxxx/Round_Trip_Translation_Defence 查看。
请注意,该版本的文章在经过同行评审(如适用)后已被接受出版,但不是最终版本,不反映接受后的改进或任何修正。最终版本可在 https://doi.org/10.48550/arXiv.2402.13517 在线获取。使用此接受版本须遵守出版商的接受手稿使用条款 https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms