摘要
arXiv:2406.09321v2 宣告类型: replace-cross
摘要: 拘禁攻击促使大型语言模型(LLMs)生成有害响应,带来了严重的误用威胁。尽管有关拘禁攻击和防御的研究正在兴起,但在评估拘禁攻击方面仍没有一致意见,即评估LLM响应有害性的方法多种多样。每种方法都有其各自的优点和缺点,影响其与人类价值观的契合程度,以及所需的时间和财务成本。这种多样性给研究人员在选择合适的评估方法和比较不同的攻击与防御策略带来了挑战。在本文中,我们对拘禁攻击评估方法进行了全面分析,依托于2023年5月到2024年4月期间近90篇拘禁攻击研究论文。我们的研究引入了一套系统化的拘禁攻击评估分类体系,深入探讨了各种评估方法的优点和缺点,以及它们当前的适应情况。为了进一步促进研究,我们提出了JailbreakEval工具包,该工具包包含多种评估方法,使用户能够通过单个命令或自定义评估工作流程获得结果。总之,我们认为JailbreakEval是简化拘禁攻击研究中评估过程的催化剂,并促进了社区内拘禁攻击评估的包容性标准。