LLM2D
大型语言模型微调中的隐私:攻击、防御及未来方向
Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions
作者: Hao Du, Shang Liu, Lele Zheng, Yang Cao, Atsuyoshi Nakamura, Lei Chen
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2412.16504v2

摘要

arXiv:2412.16504v2 宣告类型: 修改 摘要:微调已成为利用大型语言模型(LLMs)进行特定下游任务的关键过程,使这些模型能够在各种领域中达到最先进的性能。然而,微调过程往往涉及敏感数据,引入了利用这一阶段独特特征的隐私风险。本文提供了对微调LLMs相关隐私挑战的全面概述,重点关注各种隐私攻击,包括成员身份推断、数据提取和后门攻击。我们还回顾了在微调阶段设计的防御机制,例如差分隐私、联邦学习和知识遗忘,讨论了它们在应对隐私风险和保持模型实用性的有效性及局限性。通过识别现有研究中的关键空白,我们指出了挑战,并提出了进一步发展保护微调LLMs隐私的方法的方向,促进其在多种应用中的负责任使用。