摘要
大型语言模型 (LLM) 正在迅速成为大型软件系统中的通用组件。这带来了自然的安全和隐私问题:从一个组件中检索到的中毒数据可能会改变模型的行为并危及整个系统,包括迫使模型将机密数据传播到不可信的组件。一种有前景的方法是在系统级别通过动态信息流(又称污染)跟踪来解决这个问题。不幸的是,将最严格的输入标签传播到输出的传统方法对于 LLM 在从不同来源检索到的输入上运行的应用程序来说过于保守。在本文中,我们提出了一种新颖的、更宽松的方法来传播 LLM 查询中的信息流标签。我们方法背后的关键思想是只传播对生成模型输出有影响的样本的标签,并消除不必要的输入的标签。我们实施并研究了这种方法的两种变体的有效性,分别基于 (i) 基于提示的检索增强,以及 (ii) $k$ 最近邻语言模型。我们将这些与基于内省的影响估计器的基线进行比较,该估计器直接要求语言模型预测输出标签。获得的结果突出了我们基于提示的标签传播器的优越性,它在 LLM 代理设置中超过 85% 的情况下改进了标签。这些发现强调了宽松标签传播在检索增强方面的实用性。