LLM2D

摘要

arXiv:2503.23536v1 类型:交叉摘要：不可学习数据（ULD）作为一种创新的防御技术，通过阻止机器学习模型从特定数据中学习到有意义的模式，从而保护数据隐私和安全。通过向训练数据引入扰动，ULD会降低模型性能，使得未经授权的模型难以提取有用的信息。尽管ULD越来越受到重视，但现有的综述大多侧重于相关领域，如对抗攻击和机器遗忘，对ULD作为独立研究领域关注较少。本文通过全面回顾ULD，研究不可学习数据生成方法、公开基准、评估指标、理论基础和实际应用，填补了这一空白。我们比较了不同ULD方法，并分析它们在不可学习性、不可感知性、效率和鲁棒性方面的优劣和权衡。此外，我们讨论了关键挑战，如在扰动不可感知性和模型性能降低之间取得平衡，以及ULD生成的计算复杂性。最后，我们指出了未来研究的潜在方向，以提高ULD的有效性和适用性，强调其在机器学习数据保护演进场景中成为关键工具的潜力。