LLM2D

摘要

arXiv:2504.16438v1 类型: cross 摘要: 在实际应用场景中，不同ially私密联邦学习(DP-FL)是用于从私有设备客户端数据中训练模型的主导方法。最近的研究表明，使用差分隐私合成数据的方法可能可以增强或超越DP-FL (Wu等，2024；Hou等，2024)。为FL应用生成DP合成数据的主要算法需要基于公开信息和/或迭代的私有客户端反馈进行精细的提示工程。我们的主要见解是，以前的DP合成数据方法(Hou等，2024；Xie等，2024)收集的私有客户端反馈可以被视为偏好排序。我们的算法，偏好优化私有客户端数据(POPri)，利用偏好优化算法(如直接偏好优化DPO)来微调LLM，以生成高质量的DP合成数据。为了评估POPri，我们发布了LargeFedBench，这是一个新的联邦文本基准，用于无污染的LLM评估。在LargeFedBench数据集和Xie等(2024)的一个现有基准上，POPri显著提高了DP合成数据的实用性。与之前在LargeFedBench数据集上的工作以及Xie等(2024)的一个现有基准相比，POPri将全私有和非私有设置下的下一个标记预测精度差距缩小了多达68%，而之前的合成数据方法为52%，最先进的DP联邦学习方法为10%。相关代码和数据可在https://github.com/meiyuw/POPri获取。