LLM2D

摘要

arXiv:2505.08849v1 类型: cross 摘要：语言模型对齐对于确保大型语言模型（LLMs）与人类偏好相一致至关重要，但这一过程往往涉及敏感的用户数据，从而引发重大的隐私担忧。尽管先前的工作将差分隐私（DP）与对齐技术融为一体，但其性能仍然有限。在这篇论文中，我们提出了新的隐私保护对齐算法，并严格分析了其在不同隐私预算和模型下的有效性。我们的框架可以在两种著名的对齐技术，即直接偏好优化（DPO）和基于人类反馈的强化学习（RLHF）中部署。通过大规模语言模型的系统实验表明，我们的方法在性能上达到了最新水平。值得注意的是，我们的算法之一，结合了DPO的DP-AdamW，在中等隐私预算（ε=2-5）下，超越了现有方法，提高了对齐质量高达15%。我们还进一步探讨了隐私保证、对齐效果和计算需求之间的相互作用，提供了优化这些权衡的实际指南。