摘要
arXiv:2502.13172v1 宣告类型: cross
摘要:大规模语言模型(LLM)代理在各种实际应用中越来越普遍。它们通过将私有用户-代理交互存储在记忆模块中以供演示,从而增强决策过程,但这也为LLM代理引入了新的隐私风险。在本文中,我们系统地研究了在黑盒设置下,我们提出的记忆提取攻击(MEXTRA)对LLM代理的脆弱性。为了从记忆中提取私有信息,我们提出了一种有效的攻击提示设计方法,并基于对LLM代理不同水平的知识提出了自动化的提示生成方法。在两个代表性的代理上的实验表明了MEXTRA的有效性。此外,我们从代理方和攻击方的视角探讨了记忆泄漏的关键因素。我们的研究结果突显了在LLM代理设计和部署中迫切需要有效的记忆保护措施。