摘要
语言模型 (LM) 可以“记忆”信息,即以一种在推理时查询会导致对该数据的逐字重复的方式将训练数据编码到其权重中。这种提取训练数据的能力可能存在问题,例如,当数据是私有或敏感时。在这项工作中,我们研究了减轻记忆的方法:三种基于正则化的、三种基于微调的和 11 种基于机器反学习的方法,其中后者的五种是我们新提出的方法。我们还介绍了 TinyMem,这是一套小型、计算效率高的 LM,用于快速开发和评估记忆缓解方法。我们证明了我们使用 TinyMem 开发的缓解方法可以成功地应用于生产级 LM,并且我们通过实验确定:基于正则化的缓解方法速度慢且在抑制记忆方面效果不佳;基于微调的方法在抑制记忆方面有效,但过于昂贵,尤其是在保持较高准确率的情况下;而基于反学习的方法更快、更有效,允许在推理之前从 LM 权重中精确定位和删除记忆的信息。我们特别表明,我们提出的反学习方法 BalancedSubnet 在去除记忆信息的同时,在目标任务上的性能优于其他缓解方法。