LLM2D

摘要

预训练的大型语言模型（LLMs）已经彻底改变了自然语言处理（NLP）任务，如摘要、问答和翻译。然而，由于LLMs倾向于记忆训练数据，这导致了潜在的隐私泄露和版权侵犯，从而带来了显著的安全风险。准确测量这种记忆化对于评估和减轻这些潜在风险至关重要。然而，先前尝试描述记忆化的方法要么仅使用前缀，要么通过在前面添加一个恒定的软提示来限制前缀的使用，这些方法无法对输入的变化做出反应。为了应对这一挑战，我们提出了一种使用动态、前缀依赖的软提示来估计LLM记忆化的新方法。我们的方法涉及训练一个基于transformer的生成器，以生成适应输入变化的软提示，从而实现更准确地提取记忆数据。我们的方法不仅解决了先前方法的局限性，而且在与最先进技术的比较中，在多种实验设置下展示了优越的性能。特别是，我们的方法在文本生成任务和代码生成任务中，相对于普通基线，分别可以实现112.75%和32.26%的最大相对改进。