摘要
arXiv:2505.08849v1 类型: cross
摘要:语言模型对齐对于确保大型语言模型(LLMs)与人类偏好相一致至关重要,但这一过程往往涉及敏感的用户数据,从而引发重大的隐私担忧。尽管先前的工作将差分隐私(DP)与对齐技术融为一体,但其性能仍然有限。在这篇论文中,我们提出了新的隐私保护对齐算法,并严格分析了其在不同隐私预算和模型下的有效性。我们的框架可以在两种著名的对齐技术,即直接偏好优化(DPO)和基于人类反馈的强化学习(RLHF)中部署。通过大规模语言模型的系统实验表明,我们的方法在性能上达到了最新水平。值得注意的是,我们的算法之一,结合了DPO的DP-AdamW,在中等隐私预算(ε=2-5)下,超越了现有方法,提高了对齐质量高达15%。我们还进一步探讨了隐私保证、对齐效果和计算需求之间的相互作用,提供了优化这些权衡的实际指南。