摘要
arXiv:2402.13846v2 公告类型:替换
摘要:最近关于大型语言模型(LLMs)的隐私研究显示,它们在从在线文本中推断个人信息方面接近人类水平的表现。随着模型能力的不断提高,现有的文本匿名化方法目前无法满足监管要求和对抗威胁。在本文中,我们采取两步来弥补这一差距:首先,我们提出了一种新的评估环境,用以评估面对对抗性LLM推断的匿名化效果,允许自然地测量匿名化性能并弥补了先前度量标准的一些不足之处。然后,在此环境下,我们开发了一种新型的基于LLM的对抗性匿名化框架,利用LLM强大的推断能力来指导我们的匿名化程序。我们在13种LLM上对现实生活中的和合成的在线文本进行了全面的实验评估,与多种基准和工业级别的匿名化工具进行比较。我们的评估表明,对抗性匿名化在结果效用和隐私保护方面均优于当前的商业匿名化工具。我们通过一项包含50人的调研进一步支持了这一发现,该调研强调了人们对LLM匿名化文本的强烈且一致的偏好。