摘要
arXiv:2502.11308v2 通告类型:交叉
摘要:随着大规模语言模型(LLMs)和向量数据库的日益流行,私有文本数据越来越多地被处理并存储为数值嵌入。然而,最近的研究表明,这类嵌入存在反转攻击的风险,攻击者可以通过重建原始文本来揭示敏感信息。先前的研究大多假设可以通过数据泄露或近乎无限制的API访问获取数百万句子来训练攻击模型。而借助我们的方法,只需一个数据点即可实现部分成功的反转攻击。即便只有1000个数据样本,性能也能在一系列黑盒编码器中达到最优,而无需使用泄露的数据进行训练。我们提出了一种利用对齐和生成(ALGEN)的少量示例文本嵌入反转攻击方法,通过将受害嵌入对齐到攻击空间,并使用生成模型重建文本。我们发现,ALGEN攻击可以在不同领域和语言之间有效转移,揭示关键信息。我们还研究了针对ALGEN的各种防御机制,并发现这些机制均不有效,突显了反转攻击带来的脆弱性。通过显著降低反转成本,并证明嵌入空间可以通过一次优化进行对齐,我们确立了一种新的文本嵌入反转范式,为进一步在自然语言处理(NLP)中的嵌入对齐应用奠定了基础。