LLM2D

摘要

大型语言模型 (LLM) 在社会中的广泛应用给开发人员、组织和最终用户都带来了新的信息安全挑战。LLM 在大量数据上进行训练，它们容易泄露源训练数据集的具体内容，从而带来安全风险。虽然目前的校准程序限制了常见的风险行为，但它们并不能完全阻止 LLM 泄露数据。先前的工作表明，LLM 可能被诱骗使用分布外查询或对抗性技术来泄露训练数据。在本文中，我们展示了一种简单的基于查询的分解方法，用于从两个前沿 LLM 中提取新闻文章。我们使用指令分解技术来逐步提取训练数据的片段。在 3723 篇《纽约时报》文章中，我们从 73 篇文章中提取了至少一句逐字句，从 6 篇文章中提取了超过 20% 的逐字句。我们的分析表明，该方法成功地诱使 LLM 生成文本，这些文本是新闻文章的可靠复制品，这意味着它们很可能源于源训练数据集。这种方法简单、可推广，并且不需要微调或更改生产模型。如果可以大规模复制，这种训练数据提取方法可能会暴露新的 LLM 安全漏洞，包括隐私风险和未经授权的数据泄露。这些影响需要从模型开发到其最终用途的仔细考虑。