摘要
arXiv:2403.13682v5 宣告类型: replace-cross
摘要:机器去学习(MU)由于其在从已训练的机器学习(ML)模型中移除特定数据以实现安全AI方面的潜力,近年来引起了广泛关注。这一过程,称为知识移除,解决了训练数据的质量、敏感性、版权限制和过时等问题所引起的AI治理问题。这种能力对于确保符合《被遗忘权》(RTBF)等隐私法规同样至关重要。此外,有效的知识移除能够减轻有害结果的风险,防止偏见、错误信息和未经授权的数据利用,从而增强AI系统的安全和负责任的使用。为了设计高效的去学习方法,已经进行了诸多努力,包括将MU服务与现有机器学习即服务(MLaaS)进行整合,允许用户提交请求以从训练语料中删除特定数据。然而,近期的研究发现,机器去学习系统存在信息泄露和恶意去学习等漏洞,这可能会导致重大的安全和隐私问题。此外,大量研究表明,去学习方法和常见攻击在MU系统中发挥着不同的作用。这强调了这些机制之间错综复杂的关系和复杂的互动,对于维护系统的功能和安全性至关重要。本文旨在填补机器去学习方面对威胁、攻击和防御研究数量众多但缺乏全面分类、方法和解决方案的综述这一空白,从而为未来的研究方向和实际实施提供有价值的见解。