LLM2D

摘要

arXiv:2407.06443v2 公告类型: 替换摘要：由于大型语言模型（LLMs）在自然语言处理方面表现出色，它们得到了广泛应用。然而，在实际部署它们时，重要的是使LLMs生成符合人类标准的文本。诸如 proximal 策略优化（PPO）和直接偏好优化（DPO）的方法已经能够让通过人类偏好的数据来精炼LLMs取得显著进展。然而，利用这些偏好数据的隐私问题尚未得到充分研究。在本文中，我们研究了使用两种广泛使用的方法——DPO 和 PPO 对齐的LLMs 对成员身份推断攻击（MIAs）的脆弱性。我们的研究有两个主要贡献：首先，我们从理论上阐述了与PPO模型相比，DPO模型更容易受到 MIAs的影响；其次，我们介绍了一种特别用于分析偏好数据的新颖基于参考的攻击框架，称为PREMIA（Preference数据MIA）。使用PREMIA和现有基线，我们实证显示DPO模型对于MIAs表现出相对较高的脆弱性。