摘要
arXiv:2406.09321v2 安全类型: 替换交叉
摘要: 拷贝攻击促使大语言模型(LLMs)生成有害的响应,这带来了严重的滥用威胁。尽管关于拷贝攻击和防御的研究正在兴起,但关于如何评估拷贝攻击还没有达成共识,即用来评估LLM响应的危害性的方法多种多样。每种方法都有其各自的优点和缺点,影响其与人类价值观的一致性,以及所需的时间和财务成本。这种多样性挑战了研究人员在选择合适的评估方法以及比较不同攻击和防御方面的选择。在本文中,我们对近90篇自2023年5月至2024年4月发布的拷贝攻击评估方法进行了全面分析。我们的研究提出了系统的拷贝攻击评估器分类法,深入探讨了它们的优点和缺点,以及当前的适应状况。为帮助进一步的研究,我们提出了JailbreakEval,这是一个评估拷贝攻击尝试的工具包。JailbreakEval包含多种开箱即用的评估器,使用户可以通过单个命令或自定义评估工作流获得结果。总之,我们认为JailbreakEval是一个催化剂,简化了拷贝攻击研究中的评估过程,并促进了社区内拷贝攻击评估的标准包容性。