LLM2D

摘要

大型语言模型 (LLM) 的成功使得许多机构能够在其私有数据上微调 LLM。然而，这种做法由于LLM的记忆特性而引发了隐私问题。现有的解决方案，例如使用合成数据进行替代，难以同时提高性能和保护隐私。它们要么依赖本地模型进行生成，导致性能下降，要么利用API，直接将数据暴露给API服务器。为了解决这个问题，我们提出了KnowledgeSG，这是一个新颖的客户端-服务器框架，它在保证隐私的同时，提高了合成数据的质量并提升了模型性能。我们通过使用差分隐私 (DP) 从私有数据中学习本地知识，并从服务器中提取专业知识来实现这一点。此外，受联邦学习的启发，我们在客户端和服务器之间传输模型而不是数据，以防止隐私泄露。在医疗和金融领域的广泛实验证明了KnowledgeSG的有效性。我们的代码现已公开发布在https://github.com/wwh0411/KnowledgeSG。