摘要
arXiv:2410.09024v3 通告类型: replace-cross
摘要:对语言模型(LLMs)在牢笼突破攻击中的鲁棒性研究主要集中在充当简单聊天机器人的LLMs上,其中用户设计提示以绕过安全措施并误用模型能力。另一方面,使用外部工具并能够执行多阶段任务的LLM代理如果被误用,可能会带来更大的风险,但它们的鲁棒性仍然尚未得到充分探索。为了促进对LLM代理误用的研究,我们提出了一种新的基准测试,称为AgentHarm。该基准测试包括一个多样化的目标集,共有110个明确恶意的代理任务(440个带有扩充的任务),涵盖了包括欺诈、网络犯罪和骚扰在内的11个伤害类别。除了衡量模型是否拒绝有害代理请求之外,要在一个高水平上获得AgentHarm的评分,还需要在被攻击后,使被突破的代理维持其能力以完成多步骤任务。我们评估了一系列领先的LLM,发现:(1)领先的LLM在没有被突破的情况下出乎意料地遵循了恶意代理请求的要求;(2)简单的通用突破模板可以有效应用于将代理被突破,以及(3)这些突破使得代理能够表现出连贯且恶意的多步骤行为,并保留模型的能力。为了便于对基于LLM的代理攻击和防御进行简单可靠地评估,我们公开发布了AgentHarm,可在https://huggingface.co/datasets/ai-safety-institute/AgentHarm 获取。