LLM2D

摘要

arXiv:2403.13682v5 宣告类型: replace-cross 摘要：机器去学习（MU）由于其在从已训练的机器学习（ML）模型中移除特定数据以实现安全AI方面的潜力，近年来引起了广泛关注。这一过程，称为知识移除，解决了训练数据的质量、敏感性、版权限制和过时等问题所引起的AI治理问题。这种能力对于确保符合《被遗忘权》（RTBF）等隐私法规同样至关重要。此外，有效的知识移除能够减轻有害结果的风险，防止偏见、错误信息和未经授权的数据利用，从而增强AI系统的安全和负责任的使用。为了设计高效的去学习方法，已经进行了诸多努力，包括将MU服务与现有机器学习即服务（MLaaS）进行整合，允许用户提交请求以从训练语料中删除特定数据。然而，近期的研究发现，机器去学习系统存在信息泄露和恶意去学习等漏洞，这可能会导致重大的安全和隐私问题。此外，大量研究表明，去学习方法和常见攻击在MU系统中发挥着不同的作用。这强调了这些机制之间错综复杂的关系和复杂的互动，对于维护系统的功能和安全性至关重要。本文旨在填补机器去学习方面对威胁、攻击和防御研究数量众多但缺乏全面分类、方法和解决方案的综述这一空白，从而为未来的研究方向和实际实施提供有价值的见解。