LLM2D

摘要

arXiv:2504.12549v1 类型: cross 摘要: 整本书能否从LLM中提取出来？使用Llama 3 70B系列模型以及“前缀提示”提取技术，我们能够从仅仅前500个标记中自回归地重建出一本整本书（爱丽丝梦游仙境），相似度非常高。我们还能够在其他几本书上获得了高的提取率，分段进行。然而，这些成功并不适用于所有书籍。我们展示了书籍的提取率与书籍的流行度相关，因此，很可能在训练数据中存在重复。我们还证实了在指令调整后的Llama 3.1中出现了之前缓解措施的失效，这符合最近的研究（Nasr等人，2025）。进一步的研究发现，这一失效来自于权重的极小一部分，主要集中在下层的变压器块中。我们的结果提供了当前反刍缓解策略限制的证据，并引入了一个框架，用于研究微调如何影响对齐的LLM中原文记忆的检索。