摘要
arXiv:2501.07927v2 安全类型:替换交叉
摘要:当前对大型语言模型(LLM)应用程序中针对提示攻击的防御评估往往忽视了两个关键因素:对手行为的动态性质以及由限制性防御强加给合法用户的可用性惩罚。我们提出了一种动态安全可用威胁模型(D-SEC),该模型明确地将攻击者与合法用户区分开来,模型多步交互,并以可优化的形式表达安全-可用性。我们通过引入Gandalf,一个来自众包的、游戏化的红队平台,来弥补现有评估中的不足,该平台旨在生成现实且自适应的攻击。使用Gandalf,我们收集并发布了279,000个提示攻击的数据集。结合良性用户数据,我们的分析揭示了安全性和可用性之间的相互作用,表明即使不阻止请求,集成在LLM中的防御措施(例如,系统提示)也可能降低可用性。我们证明限制的应用领域、多层次防御和自适应防御是构建安全且有用的LLM应用程序的有效策略。