摘要
arXiv:2503.23536v2 宣传类型: 交叉替换
摘要:无法学习的数据(Unlearnable Data, ULD)作为一种创新的防御技术,通过阻止机器学习模型从特定数据中学习有意义的模式来保护数据隐私和安全。通过在训练数据中引入扰动,ULD 降低了模型性能,使得未经授权的模型难以提取有用的信息表示。尽管ULD的重要性日益增加,但现有的综述主要集中在相关领域,如对抗攻击和机器去学习上,很少关注ULD作为一个独立的研究领域。本综述填补了这一空白,提供了一篇全面的ULD综述,探讨了不可学习数据生成方法、公开基准测试、评估指标、理论基础和实际应用。我们比较了不同的ULD方法,分析了它们在不可学习性、不可感知性、效率和鲁棒性方面的优势、局限性和权衡。此外,我们还讨论了关键挑战,如在不可感知性与模型性能降低之间平衡、以及生成ULD的计算复杂性。最后,我们指出了未来研究的有希望的方向,以提高ULD的有效性和应用性,突显了它在机器学习不断发展保护格局中成为重要工具的潜力。