LLM2D
重构你的过往对话!全面调查与GPT模型对话中的隐私泄露风险
Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models
作者: Junjie Chu, Zeyang Sha, Michael Backes, Yang Zhang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2402.02987v2

摘要

大型语言模型,以 GPT 模型为代表,近年来取得了重大进展。用户经常与云托管的 GPT 模型进行多轮私人对话以优化任务。然而,这种操作范式引入了额外的攻击面,特别是在定制 GPT 和劫持的聊天会话中。本文介绍了一种简单而有效的对话重建攻击。该攻击针对 GPT 模型与良性用户之间先前对话的内容,即良性用户在与 GPT 模型交互期间的输入内容。攻击者可以通过向 GPT 模型查询设计好的恶意提示来诱使它们泄露此类内容。我们对 GPT 模型在该攻击下交互过程中的隐私风险进行了全面审查,发现 GPT-4 具有相当的抵抗力。我们提出了两种针对改进过去对话重建的先进攻击,证明了在这些先进技术下所有模型都存在重大隐私泄露。评估各种防御机制后,我们发现它们对这些攻击无效。我们的研究结果突出了在与 GPT 模型交互过程中隐私很容易被泄露的程度,呼吁社区采取措施防范对这些模型能力的潜在滥用。