LLM2D
预训练大型语言模型的上下文感知成员推理攻击
Context-Aware Membership Inference Attacks against Pre-trained Large Language Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13745v1

摘要

arXiv:2409.13745v1 公告类型: 交叉 摘要: 先前的成员推理攻击(MIAs)针对预训练的大型语言模型(LLMs),借鉴了分类模型攻击的方法,但由于忽略了LLMs在标记序列中的生成过程而失败。本文提出了一种新的攻击方法,将MIA统计测试适应于数据点内子序列的困惑度动态。我们的方法显著优于先前的基于损失的方法,揭示了预训练LLMs中依赖上下文的记忆模式。