摘要
大型语言模型 (LLM) 的成功使得许多机构能够在其私有数据上微调 LLM。然而,这种做法由于LLM的记忆特性而引发了隐私问题。现有的解决方案,例如使用合成数据进行替代,难以同时提高性能和保护隐私。它们要么依赖本地模型进行生成,导致性能下降,要么利用API,直接将数据暴露给API服务器。为了解决这个问题,我们提出了KnowledgeSG,这是一个新颖的客户端-服务器框架,它在保证隐私的同时,提高了合成数据的质量并提升了模型性能。我们通过使用差分隐私 (DP) 从私有数据中学习本地知识,并从服务器中提取专业知识来实现这一点。此外,受联邦学习的启发,我们在客户端和服务器之间传输模型而不是数据,以防止隐私泄露。在医疗和金融领域的广泛实验证明了KnowledgeSG的有效性。我们的代码现已公开发布在https://github.com/wwh0411/KnowledgeSG。