LLM2D

摘要

arXiv:2502.11308v2 通告类型：交叉摘要：随着大规模语言模型（LLMs）和向量数据库的日益流行，私有文本数据越来越多地被处理并存储为数值嵌入。然而，最近的研究表明，这类嵌入存在反转攻击的风险，攻击者可以通过重建原始文本来揭示敏感信息。先前的研究大多假设可以通过数据泄露或近乎无限制的API访问获取数百万句子来训练攻击模型。而借助我们的方法，只需一个数据点即可实现部分成功的反转攻击。即便只有1000个数据样本，性能也能在一系列黑盒编码器中达到最优，而无需使用泄露的数据进行训练。我们提出了一种利用对齐和生成（ALGEN）的少量示例文本嵌入反转攻击方法，通过将受害嵌入对齐到攻击空间，并使用生成模型重建文本。我们发现，ALGEN攻击可以在不同领域和语言之间有效转移，揭示关键信息。我们还研究了针对ALGEN的各种防御机制，并发现这些机制均不有效，突显了反转攻击带来的脆弱性。通过显著降低反转成本，并证明嵌入空间可以通过一次优化进行对齐，我们确立了一种新的文本嵌入反转范式，为进一步在自然语言处理（NLP）中的嵌入对齐应用奠定了基础。