摘要
arXiv:2502.05739v1 宣布类型: 对比
摘要: 大型语言模型用于代码(LLMs4Code)在代码生成任务中表现出色,有望减轻开发者的巨大软件开发负担。然而,这些模型已被证明由于潜在的敏感信息泄露问题——称为记忆问题——而存在重大的隐私风险。解决这一问题是保证隐私合规和维护用户信任的关键,但目前文献中专门针对这一特定方向的研究寥寥无几。最近,机器遗忘技术作为一种有前景的解决方案出现了,它使模型能够在不完全重新训练的情况下“忘记”敏感信息,与传统的数据清理方法相比,它提供了更为高效和可扩展的方法。在这篇论文中,我们实证评估了在LLMs4Code中通过机器遗忘技术解决隐私问题的有效性。具体来说,我们在一个基准测试中调查了三种最先进的遗忘算法和三种知名的开源LLMs4Code,该基准测试考虑了要遗忘的隐私数据和这些模型的代码生成能力。结果表明,可以通过机器遗忘技术缓解LLMs4Code的隐私问题,同时保持其代码生成能力。我们还剖析了遗忘后的隐私保护/泄露形式,并观察到从直接泄露转变为间接泄露,这突显了未来研究解决这一风险的必要性。