LLM2D

摘要

arXiv:2409.13745v1 公告类型: 交叉摘要: 先前的成员推理攻击(MIAs)针对预训练的大型语言模型(LLMs)，借鉴了分类模型攻击的方法，但由于忽略了LLMs在标记序列中的生成过程而失败。本文提出了一种新的攻击方法，将MIA统计测试适应于数据点内子序列的困惑度动态。我们的方法显著优于先前的基于损失的方法，揭示了预训练LLMs中依赖上下文的记忆模式。