LLM2D

摘要

arXiv:2409.12367v1 公告类型: 交叉摘要: 大型语言模型（LLMs）在社会中的广泛应用为开发者、组织和终端用户带来了新的信息安全挑战。LLMs 通过大量数据进行训练，其揭示源训练数据具体内容的能力带来了安全和风险隐患。尽管当前的对齐程序限制了常见的风险行为，但并未完全阻止 LLMs 泄露数据。先前的工作表明，LLMs 可能通过使用分布外查询或对抗性技术被诱导泄露训练数据。本文展示了一种基于查询的简单分解方法，用于从两个前沿 LLMs 中提取新闻文章。我们使用指令分解技术逐步提取训练数据的片段。在 3723 篇《纽约时报》文章中，我们从 73 篇文章中提取了至少一个逐字句，并从 6 篇文章中提取了超过 20% 的逐字句。我们的分析表明，这种方法成功诱导 LLM 生成可靠的新闻文章复制品，这意味着它们很可能源自源训练数据。该方法简单、通用，且无需微调或改变生产模型。如果在大规模上可复制，这种训练数据提取方法可能会暴露新的 LLM 安全和安全漏洞，包括隐私风险和未经授权的数据泄露。这些影响需要从模型开发到最终使用的各个环节进行仔细考虑。