LLM2D

摘要

arXiv:2402.13517v2 社工型攻击类型: 互换交叉摘要：大型语言模型（LLMs）容易受到社工型攻击的影响，这类攻击具有人类可解释性，但需要较高的理解水平才能被LLMs防御。现有的防御措施最多只能减轻少于一半的这些攻击。为了解决这一问题，我们提出了往返翻译（RTT）方法，这是第一个专门设计用于防御社工型攻击的算法。RTT重述了敌对提示，并泛化了所传达的想法，使LLMs更容易检测到诱导的有害行为。该方法具有通用性、轻量级且可以转移应用于不同的LLMs。我们的防御成功缓解了超过70%的提示自动迭代细化（PAIR）攻击，这是目前我们所知最有效的防御。我们也是第一个尝试缓解MathsAttack并使其攻击成功率降低了近40%的人。我们的代码已公开可在 https://github.com/Cancanxxx/Round_Trip_Translation_Defence 查看。请注意，该版本的文章在经过同行评审（如适用）后已被接受出版，但不是最终版本，不反映接受后的改进或任何修正。最终版本可在 https://doi.org/10.48550/arXiv.2402.13517 在线获取。使用此接受版本须遵守出版商的接受手稿使用条款 https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms