LLM2D
通过分解提取记忆训练数据
Extracting Memorized Training Data via Decomposition
作者: Ellen Su, Anu Vellore, Amy Chang, Raffaele Mura, Blaine Nelson, Paul Kassianik, Amin Karbasi
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.12367v2

摘要

大型语言模型 (LLM) 在社会中的广泛应用给开发人员、组织和最终用户都带来了新的信息安全挑战。LLM 在大量数据上进行训练,它们容易泄露源训练数据集的具体内容,从而带来安全风险。虽然目前的校准程序限制了常见的风险行为,但它们并不能完全阻止 LLM 泄露数据。先前的工作表明,LLM 可能被诱骗使用分布外查询或对抗性技术来泄露训练数据。在本文中,我们展示了一种简单的基于查询的分解方法,用于从两个前沿 LLM 中提取新闻文章。我们使用指令分解技术来逐步提取训练数据的片段。在 3723 篇《纽约时报》文章中,我们从 73 篇文章中提取了至少一句逐字句,从 6 篇文章中提取了超过 20% 的逐字句。我们的分析表明,该方法成功地诱使 LLM 生成文本,这些文本是新闻文章的可靠复制品,这意味着它们很可能源于源训练数据集。这种方法简单、可推广,并且不需要微调或更改生产模型。如果可以大规模复制,这种训练数据提取方法可能会暴露新的 LLM 安全漏洞,包括隐私风险和未经授权的数据泄露。这些影响需要从模型开发到其最终用途的仔细考虑。