摘要
arXiv:2406.13348v2 宣告类型: 替换-交叉
摘要:语言模型(LMs)容易“记住”训练数据,包括大量敏感的用户信息。为了减轻隐私风险并保障被遗忘权,机器遗忘已作为一种有前景的方法,使LMs能够高效地“忘记”特定的文本。然而,尽管有良好的意图,文本遗忘真的像预期的那样有效和可靠吗?为了解决这一问题,我们首先提出了文本遗忘似然比攻击+(U-LiRA+),这是一种严格的文本遗忘审计方法,并发现即使在遗忘后,也能够以极高的置信度检测到被遗忘的文本。进一步地,我们在部署环境下对文本遗忘机制的隐私风险进行了深入调查,并提出了文本遗忘泄漏攻击(TULA),以及在黑盒和白盒场景下的其变种。我们展示了文本遗忘机制可能会更多地揭示被遗忘文本的信息,使其面临显著的成员身份推断和数据重建风险。我们的研究结果突显了现有文本遗忘实际上给人一种虚假的遗忘感,强调了需要更 robust 和安全的遗忘机制的必要性。