摘要
大型语言模型(LLMs)的成功使得许多机构能够在其私有数据上微调LLMs。然而,这种做法由于LLMs的记忆能力而引发了隐私问题。现有的解决方案,例如使用合成数据进行替换,难以同时提高性能和保护隐私。它们要么依赖于本地模型进行生成,导致性能下降,要么利用API,直接将数据暴露给API服务器。为了解决这个问题,我们提出了\textit{KnowledgeSG},一个新颖的客户端-服务器框架,它通过增强合成数据质量和提高模型性能来确保隐私。我们通过使用差分隐私(DP)从私有数据中学习本地知识,并从服务器中提取专业知识来实现这一点。此外,受联邦学习的启发,我们在客户端和服务器之间传输模型而不是数据,以防止隐私泄露。在医疗和金融领域的广泛实验表明了KnowledgeSG的有效性。我们的代码现已在https://github.com/wwh0411/KnowledgeSG公开发布。