LLM2D
不可学习数据研究综述
A Survey on Unlearnable Data
作者: Jiahao Li, Yiqiang Chen, Yunbing Xing, Yang Gu, Xiangyuan Lan
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23536v1

摘要

arXiv:2503.23536v1 类型:交叉 摘要:不可学习数据(ULD)作为一种创新的防御技术,通过阻止机器学习模型从特定数据中学习到有意义的模式,从而保护数据隐私和安全。通过向训练数据引入扰动,ULD会降低模型性能,使得未经授权的模型难以提取有用的信息。尽管ULD越来越受到重视,但现有的综述大多侧重于相关领域,如对抗攻击和机器遗忘,对ULD作为独立研究领域关注较少。本文通过全面回顾ULD,研究不可学习数据生成方法、公开基准、评估指标、理论基础和实际应用,填补了这一空白。我们比较了不同ULD方法,并分析它们在不可学习性、不可感知性、效率和鲁棒性方面的优劣和权衡。此外,我们讨论了关键挑战,如在扰动不可感知性和模型性能降低之间取得平衡,以及ULD生成的计算复杂性。最后,我们指出了未来研究的潜在方向,以提高ULD的有效性和适用性,强调其在机器学习数据保护演进场景中成为关键工具的潜力。