摘要
arXiv:2504.12549v1 类型: cross
摘要: 整本书能否从LLM中提取出来?使用Llama 3 70B系列模型以及“前缀提示”提取技术,我们能够从仅仅前500个标记中自回归地重建出一本整本书(爱丽丝梦游仙境),相似度非常高。我们还能够在其他几本书上获得了高的提取率,分段进行。然而,这些成功并不适用于所有书籍。我们展示了书籍的提取率与书籍的流行度相关,因此,很可能在训练数据中存在重复。
我们还证实了在指令调整后的Llama 3.1中出现了之前缓解措施的失效,这符合最近的研究(Nasr等人,2025)。进一步的研究发现,这一失效来自于权重的极小一部分,主要集中在下层的变压器块中。我们的结果提供了当前反刍缓解策略限制的证据,并引入了一个框架,用于研究微调如何影响对齐的LLM中原文记忆的检索。