LLM2D
通过分解提取记忆的训练数据
Extracting Memorized Training Data via Decomposition
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12367v1

摘要

arXiv:2409.12367v1 公告类型: 交叉 摘要: 大型语言模型(LLMs)在社会中的广泛应用为开发者、组织和终端用户带来了新的信息安全挑战。LLMs 通过大量数据进行训练,其揭示源训练数据具体内容的能力带来了安全和风险隐患。尽管当前的对齐程序限制了常见的风险行为,但并未完全阻止 LLMs 泄露数据。先前的工作表明,LLMs 可能通过使用分布外查询或对抗性技术被诱导泄露训练数据。本文展示了一种基于查询的简单分解方法,用于从两个前沿 LLMs 中提取新闻文章。我们使用指令分解技术逐步提取训练数据的片段。在 3723 篇《纽约时报》文章中,我们从 73 篇文章中提取了至少一个逐字句,并从 6 篇文章中提取了超过 20% 的逐字句。我们的分析表明,这种方法成功诱导 LLM 生成可靠的新闻文章复制品,这意味着它们很可能源自源训练数据。该方法简单、通用,且无需微调或改变生产模型。如果在大规模上可复制,这种训练数据提取方法可能会暴露新的 LLM 安全和安全漏洞,包括隐私风险和未经授权的数据泄露。这些影响需要从模型开发到最终使用的各个环节进行仔细考虑。