LLM2D

摘要

arXiv:2504.10694v1 类型：交叉摘要：监狱突破攻击绕过了大型语言模型的安全边界，产生了有害的输出。在这篇论文中，我们询问现有监狱突破所生成的模型输出是否真正有用。例如，当将模型改造以提供制作炸弹的指令时，监狱突破是否能产出好的指令？由于大多数不安全答案（例如，炸弹指令）的有用性难以严格评估，我们通过将模型对与温和且易于评估的话题（例如生物或数学）相关的问题进行拒绝，构建了一个新的监狱突破评估集，从而获得已知真实答案。我们在五个有用性的基准测试中对八种代表性监狱突破进行了评估，结果显示，在监狱突破响应中的模型有用性出现了一致的下降，我们将其称为监狱突破税。例如，在所有经过测试的监狱突破都成功绕过了拒绝回答数学问题的模型安全边界时，这带来了高达92%准确性的下降。总体而言，我们的工作提出了监狱突破税作为AI安全中一个新且重要的指标，并引入了评估现有和未来监狱突破的基准。我们已在https://github.com/ethz-spylab/jailbreak-tax公开了该基准。