LLM2D

摘要

arXiv:2502.01187v1 通知类型: 新摘要：大型语言模型（LLMs）中的记忆化存在隐私和安全风险，因为模型可能会无意中复制敏感或版权受保护的数据。现有分析主要集中在平均情况场景上，往往忽略了记忆化分布的严重偏斜。本文研究了监督微调（SFT）中的记忆化，探讨了其与训练时间、数据集大小以及样本间相似性之间的关系。通过分析序列长度上的记忆化概率，我们将这种偏斜与token生成过程联系起来，为估计记忆化并将其与已建立的度量标准进行比较提供了见解。通过理论分析和实证评估，我们提供了对记忆化行为的全面理解，并提出了一些建议来检测和缓解风险，从而促进更具有隐私保护性的LLMs。