LLM2D

摘要

arXiv:2502.11308v1 公告类型: cross 摘要: 随着大型语言模型（LLMs）和向量数据库的流行，私有文本数据越来越多地被处理和存储为数值嵌入。然而，近期的研究表明，这些嵌入容易受到反转攻击的影响，即通过重构原始文本来暴露敏感信息。先前的研究大多假设可以获取数百万句子来训练攻击模型，例如通过数据泄露或近乎无限制的API访问。借助我们的方法，仅需一个数据点即可实现部分成功的反转攻击。即使只有1000个数据样本，性能在多种黑盒编码器上达到最优，而无需使用泄露的数据进行训练。我们提出了一种使用对齐和生成（ALGEN）的少量提示文本嵌入反转攻击方法，通过将受害者嵌入与攻击空间对齐，并使用生成模型重构文本。我们发现，ALGEN攻击可以有效地跨领域和语言转移，揭示关键信息。我们进一步研究了针对ALGEN的各种防御机制，并发现没有任何一种有效，突显了反转攻击带来的脆弱性。通过显著降低反转的成本，并证明嵌入空间可以通过一阶优化对齐，我们确立了一种新的文本嵌入反转范式，为NLP中的嵌入对齐提供了更广泛的应用。