LLM2D

摘要

大型语言模型 (LLM) 呈现出双重用途的困境：它们能够支持有益的应用，但也潜藏着造成危害的可能性，尤其是在对话交互中。尽管采取了各种安全措施，但先进的 LLM 仍然存在漏洞。一个具有里程碑意义的案例是凯文·鲁斯与必应的著名对话，在长时间的互动后，必应产生了有害的输出。这与早期更容易产生类似内容的简单越狱行为形成对比，引发了一个问题：从 LLM 中获取有害信息需要多少对话努力？我们提出了两个指标：对话长度 (CL)，用于量化获取特定响应所需的对话长度；对话复杂度 (CC)，定义为导致响应的用户指令序列的 Kolmogorov 复杂度。为了解决 Kolmogorov 复杂度的不可计算性，我们使用参考 LLM 来近似 CC，以估计用户指令的可压缩性。将这种方法应用于大型红队数据集，我们进行了定量分析，检查了有害和无害对话长度和复杂度的统计分布。我们的实证结果表明，这种分布分析和 CC 的最小化是理解 AI 安全的宝贵工具，为理解有害信息的获取途径提供见解。这项工作为 LLM 安全的新视角奠定了基础，该视角以通往危害的路径的算法复杂度为中心。