摘要
arXiv:2502.08586v1 安全公告类型:交叉
摘要:近期大量的机器学习安全文献集中在针对对齐的大语言模型(LLMs)的攻击上。这些攻击可能会提取私人信息或将模型诱使其生成有害输出。在实际部署中,LLMs 往往是更大代理管道的一部分,其中包括内存系统、检索、网络访问和API调用。这些额外的组件引入了漏洞,使得这些由LLM支持的代理比孤立的LLM更容易被攻击,但相对较少的工作关注LLM代理的安全性。在本文中,我们分析了仅存在于LLM代理的安全和隐私漏洞。我们首先提供了一种攻击分类体系,根据威胁行为者、目标、入口点、攻击者可观察性、攻击策略以及代理管道的固有漏洞进行分类。然后,我们对流行的开源和商用代理进行了系列示例攻击,展示了其漏洞的即时实践影响。值得注意的是,我们的攻击非常容易实施,不需要了解机器学习。