LLM2D

摘要

arXiv:2502.05087v1 声称类型: 交叉摘要： federated learning (联邦学习, FL) 是一种流行的协作训练范式，可以避免客户端之间直接数据暴露。然而，数据隐私问题仍然存在：通过给出训练数据的前缀，由FL训练的大型语言模型能够记住并完成训练数据中的短语和句子。因此，恶意和诚实但好奇的客户端可以通过目标化的提示简单地恢复其他参与者的训练数据。在本工作中，我们展示了流行且简单的微调策略低秩适应（LoRA）在FL中最多可以减少记忆因素10倍。我们通过执行医学问答微调任务并注入来自外部临床数据集的多个分布外敏感序列的副本，研究了这一效应。我们观察到Llama 2和3模型的各种版本中记忆减少，发现LoRA可以在中心化学习中减少记忆。此外，我们表明可以将LoRA与其他隐私保护技术，如梯度裁剪和加法噪声、安全聚合和Goldfish损失结合起来，以进一步提高记录级隐私同时保持性能。