LLM2D

摘要

arXiv:2502.13172v1 宣告类型: cross 摘要：大规模语言模型（LLM）代理在各种实际应用中越来越普遍。它们通过将私有用户-代理交互存储在记忆模块中以供演示，从而增强决策过程，但这也为LLM代理引入了新的隐私风险。在本文中，我们系统地研究了在黑盒设置下，我们提出的记忆提取攻击（MEXTRA）对LLM代理的脆弱性。为了从记忆中提取私有信息，我们提出了一种有效的攻击提示设计方法，并基于对LLM代理不同水平的知识提出了自动化的提示生成方法。在两个代表性的代理上的实验表明了MEXTRA的有效性。此外，我们从代理方和攻击方的视角探讨了记忆泄漏的关键因素。我们的研究结果突显了在LLM代理设计和部署中迫切需要有效的记忆保护措施。