摘要
arXiv:2503.23250v1 安全威胁类型: 横向
摘要: 像提示注入攻击这样的安全威胁对集成大型语言模型(LLMs)的应用程序构成了重大风险,可能导致未经授权的操作,例如API滥用。与以往那些以尽力检测这些攻击的方法不同,本文介绍了一种新颖的方法,在每个用户提示后面附加加密提示,并嵌入当前权限。在执行任何由LLM生成的操作(如API调用)之前,验证这些权限。如果权限不足,LLM的操作将不会被执行,确保了安全性。这种方法保证了只有在当前LLM权限范围内才能进行的操作才能继续进行。在对抗性提示被引入以误导LLM的情况下,此方法通过在加密提示中验证权限来确保不会执行任何未经授权的LLM操作,从而有效地缓解了提示注入攻击等引发LLM生成有害操作的威胁。