LLM2D

摘要

大型语言模型 (LLMs) 在生成任务中的卓越表现使从业者能够利用公开可用的模型来为定制应用程序（如聊天机器人和虚拟助手）提供动力。然而，用于训练或微调这些 LLMs 的数据通常未公开，这使得攻击者能够破坏数据并在模型中植入后门。在本文中，我们开发了一种名为 CLEANGEN 的新型推理时间防御，以减轻针对 LLMs 生成任务的后门攻击。CLEANGEN 是一种轻量级且有效的解码策略，与最先进 (SOTA) 的 LLMs 兼容。我们对 CLEANGEN 的洞察是，与其他 LLMs 相比，后门 LLMs 会为代表攻击者所需内容的标记分配明显更高的概率。标记概率中的这些差异使 CLEANGEN 能够识别攻击者偏爱的可疑标记，并将它们替换为由另一个不受相同攻击者攻击的 LLM 生成的标记，从而避免生成攻击者所需的内容。我们评估了 CLEANGEN 对五种 SOTA 后门攻击的有效性。我们的结果表明，与五种 SOTA 基线防御相比，CLEANGEN 在所有五种后门攻击中都实现了更低的攻击成功率 (ASR)。此外，部署 CLEANGEN 的 LLMs 在处理良性用户查询时，其响应仍然很有用，并且计算开销很小。