LLM2D

摘要

arXiv:2410.09024v3 通告类型: replace-cross 摘要：对语言模型（LLMs）在牢笼突破攻击中的鲁棒性研究主要集中在充当简单聊天机器人的LLMs上，其中用户设计提示以绕过安全措施并误用模型能力。另一方面，使用外部工具并能够执行多阶段任务的LLM代理如果被误用，可能会带来更大的风险，但它们的鲁棒性仍然尚未得到充分探索。为了促进对LLM代理误用的研究，我们提出了一种新的基准测试，称为AgentHarm。该基准测试包括一个多样化的目标集，共有110个明确恶意的代理任务（440个带有扩充的任务），涵盖了包括欺诈、网络犯罪和骚扰在内的11个伤害类别。除了衡量模型是否拒绝有害代理请求之外，要在一个高水平上获得AgentHarm的评分，还需要在被攻击后，使被突破的代理维持其能力以完成多步骤任务。我们评估了一系列领先的LLM，发现：（1）领先的LLM在没有被突破的情况下出乎意料地遵循了恶意代理请求的要求；（2）简单的通用突破模板可以有效应用于将代理被突破，以及（3）这些突破使得代理能够表现出连贯且恶意的多步骤行为，并保留模型的能力。为了便于对基于LLM的代理攻击和防御进行简单可靠地评估，我们公开发布了AgentHarm，可在https://huggingface.co/datasets/ai-safety-institute/AgentHarm 获取。