LLM2D

摘要

arXiv:2406.13348v2 宣告类型: 替换-交叉摘要：语言模型（LMs）容易“记住”训练数据，包括大量敏感的用户信息。为了减轻隐私风险并保障被遗忘权，机器遗忘已作为一种有前景的方法，使LMs能够高效地“忘记”特定的文本。然而，尽管有良好的意图，文本遗忘真的像预期的那样有效和可靠吗？为了解决这一问题，我们首先提出了文本遗忘似然比攻击+（U-LiRA+），这是一种严格的文本遗忘审计方法，并发现即使在遗忘后，也能够以极高的置信度检测到被遗忘的文本。进一步地，我们在部署环境下对文本遗忘机制的隐私风险进行了深入调查，并提出了文本遗忘泄漏攻击（TULA），以及在黑盒和白盒场景下的其变种。我们展示了文本遗忘机制可能会更多地揭示被遗忘文本的信息，使其面临显著的成员身份推断和数据重建风险。我们的研究结果突显了现有文本遗忘实际上给人一种虚假的遗忘感，强调了需要更 robust 和安全的遗忘机制的必要性。