摘要
arXiv:2502.01187v1 通知类型: 新
摘要:大型语言模型(LLMs)中的记忆化存在隐私和安全风险,因为模型可能会无意中复制敏感或版权受保护的数据。现有分析主要集中在平均情况场景上,往往忽略了记忆化分布的严重偏斜。本文研究了监督微调(SFT)中的记忆化,探讨了其与训练时间、数据集大小以及样本间相似性之间的关系。通过分析序列长度上的记忆化概率,我们将这种偏斜与token生成过程联系起来,为估计记忆化并将其与已建立的度量标准进行比较提供了见解。通过理论分析和实证评估,我们提供了对记忆化行为的全面理解,并提出了一些建议来检测和缓解风险,从而促进更具有隐私保护性的LLMs。