摘要
大型语言模型,以 GPT 模型为代表,近年来取得了重大进展。用户经常与云托管的 GPT 模型进行多轮私人对话以优化任务。然而,这种操作范式引入了额外的攻击面,特别是在定制 GPT 和劫持的聊天会话中。本文介绍了一种简单而有效的对话重建攻击。该攻击针对 GPT 模型与良性用户之间先前对话的内容,即良性用户在与 GPT 模型交互期间的输入内容。攻击者可以通过向 GPT 模型查询设计好的恶意提示来诱使它们泄露此类内容。我们对 GPT 模型在该攻击下交互过程中的隐私风险进行了全面审查,发现 GPT-4 具有相当的抵抗力。我们提出了两种针对改进过去对话重建的先进攻击,证明了在这些先进技术下所有模型都存在重大隐私泄露。评估各种防御机制后,我们发现它们对这些攻击无效。我们的研究结果突出了在与 GPT 模型交互过程中隐私很容易被泄露的程度,呼吁社区采取措施防范对这些模型能力的潜在滥用。