LLM2D
暴露隐私差距:针对LLM对齐的偏好数据成员推断攻击
Exposing Privacy Gaps: Membership Inference Attack on Preference Data for LLM Alignment
作者: Qizhang Feng, Siva Rajesh Kasa, Santhosh Kumar Kasa, Hyokun Yun, Choon Hui Teo, Sravan Babu Bodapati
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2407.06443v2

摘要

arXiv:2407.06443v2 公告类型: 替换 摘要:由于大型语言模型(LLMs)在自然语言处理方面表现出色,它们得到了广泛应用。然而,在实际部署它们时,重要的是使LLMs生成符合人类标准的文本。诸如 proximal 策略优化(PPO)和直接偏好优化(DPO)的 方法已经能够让通过人类偏好的数据来精炼LLMs取得显著进展。然而,利用这些偏好数据的隐私问题尚未得到充分研究。在本文中,我们研究了使用两种广泛使用的方 法——DPO 和 PPO 对齐的LLMs 对成员身份推断攻击(MIAs)的脆弱性。我们的研究有两个主要贡献:首先,我们从理论上阐述了与PPO模型相比,DPO模型更容易受到 MIAs的影响;其次,我们介绍了一种特别用于分析偏好数据的新颖基于参考的攻击框架,称为PREMIA(Preference数据MIA)。使用PREMIA和现有基线,我们实证 显示DPO模型对于MIAs表现出相对较高的脆弱性。