LLM2D
大型语言模型风险评估中的对话复杂性
Conversational Complexity for Assessing Risk in Large Language Models
作者: John Burden, Manuel Cebrian, Jose Hernandez-Orallo
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2409.01247v2

摘要

大型语言模型 (LLM) 呈现出双重用途的困境:它们能够支持有益的应用,但也潜藏着造成危害的可能性,尤其是在对话交互中。尽管采取了各种安全措施,但先进的 LLM 仍然存在漏洞。一个具有里程碑意义的案例是凯文·鲁斯与必应的著名对话,在长时间的互动后,必应产生了有害的输出。这与早期更容易产生类似内容的简单越狱行为形成对比,引发了一个问题:从 LLM 中获取有害信息需要多少对话努力?我们提出了两个指标:对话长度 (CL),用于量化获取特定响应所需的对话长度;对话复杂度 (CC),定义为导致响应的用户指令序列的 Kolmogorov 复杂度。为了解决 Kolmogorov 复杂度的不可计算性,我们使用参考 LLM 来近似 CC,以估计用户指令的可压缩性。将这种方法应用于大型红队数据集,我们进行了定量分析,检查了有害和无害对话长度和复杂度的统计分布。我们的实证结果表明,这种分布分析和 CC 的最小化是理解 AI 安全的宝贵工具,为理解有害信息的获取途径提供见解。这项工作为 LLM 安全的新视角奠定了基础,该视角以通往危害的路径的算法复杂度为中心。