LLM2D

摘要

大型语言模型（LLMs）的成功使得许多机构能够在其私有数据上微调LLMs。然而，这种做法由于LLMs的记忆能力而引发了隐私问题。现有的解决方案，例如使用合成数据进行替换，难以同时提高性能和保护隐私。它们要么依赖于本地模型进行生成，导致性能下降，要么利用API，直接将数据暴露给API服务器。为了解决这个问题，我们提出了\textit{KnowledgeSG}，一个新颖的客户端-服务器框架，它通过增强合成数据质量和提高模型性能来确保隐私。我们通过使用差分隐私（DP）从私有数据中学习本地知识，并从服务器中提取专业知识来实现这一点。此外，受联邦学习的启发，我们在客户端和服务器之间传输模型而不是数据，以防止隐私泄露。在医疗和金融领域的广泛实验表明了KnowledgeSG的有效性。我们的代码现已在https://github.com/wwh0411/KnowledgeSG公开发布。