LLM2D
大型语言模型中的偏倚记忆:量化与分解
Skewed Memorization in Large Language Models: Quantification and Decomposition
作者: Hao Li, Di Huang, Ziyu Wang, Amir M. Rahmani
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01187v1

摘要

arXiv:2502.01187v1 通知类型: 新 摘要:大型语言模型(LLMs)中的记忆化存在隐私和安全风险,因为模型可能会无意中复制敏感或版权受保护的数据。现有分析主要集中在平均情况场景上,往往忽略了记忆化分布的严重偏斜。本文研究了监督微调(SFT)中的记忆化,探讨了其与训练时间、数据集大小以及样本间相似性之间的关系。通过分析序列长度上的记忆化概率,我们将这种偏斜与token生成过程联系起来,为估计记忆化并将其与已建立的度量标准进行比较提供了见解。通过理论分析和实证评估,我们提供了对记忆化行为的全面理解,并提出了一些建议来检测和缓解风险,从而促进更具有隐私保护性的LLMs。