LLM2D

摘要

大型语言模型，以 GPT 模型为代表，近年来取得了重大进展。用户经常与云托管的 GPT 模型进行多轮私人对话以优化任务。然而，这种操作范式引入了额外的攻击面，特别是在定制 GPT 和劫持的聊天会话中。本文介绍了一种简单而有效的对话重建攻击。该攻击针对 GPT 模型与良性用户之间先前对话的内容，即良性用户在与 GPT 模型交互期间的输入内容。攻击者可以通过向 GPT 模型查询设计好的恶意提示来诱使它们泄露此类内容。我们对 GPT 模型在该攻击下交互过程中的隐私风险进行了全面审查，发现 GPT-4 具有相当的抵抗力。我们提出了两种针对改进过去对话重建的先进攻击，证明了在这些先进技术下所有模型都存在重大隐私泄露。评估各种防御机制后，我们发现它们对这些攻击无效。我们的研究结果突出了在与 GPT 模型交互过程中隐私很容易被泄露的程度，呼吁社区采取措施防范对这些模型能力的潜在滥用。