LLM2D

摘要

arXiv:2502.08586v1 安全公告类型：交叉摘要：近期大量的机器学习安全文献集中在针对对齐的大语言模型（LLMs）的攻击上。这些攻击可能会提取私人信息或将模型诱使其生成有害输出。在实际部署中，LLMs 往往是更大代理管道的一部分，其中包括内存系统、检索、网络访问和API调用。这些额外的组件引入了漏洞，使得这些由LLM支持的代理比孤立的LLM更容易被攻击，但相对较少的工作关注LLM代理的安全性。在本文中，我们分析了仅存在于LLM代理的安全和隐私漏洞。我们首先提供了一种攻击分类体系，根据威胁行为者、目标、入口点、攻击者可观察性、攻击策略以及代理管道的固有漏洞进行分类。然后，我们对流行的开源和商用代理进行了系列示例攻击，展示了其漏洞的即时实践影响。值得注意的是，我们的攻击非常容易实施，不需要了解机器学习。