LLM2D

摘要

arXiv:2505.08148v1 交叉类型: cross 摘要: 数百万用户利用领先模型提供商开发的基于生成预训练变换器（GPT）的语言模型来完成各种任务。为了支持增强的用户交互和自定义，许多平台——如OpenAI现如今允许开发人员通过专用仓库或应用程序商店创建并发布定制的模型实例，即所谓的自定义GPT。这些自定义GPT使用户能够浏览和与设计用于满足特定需求的专业应用进行交互。然而，随着自定义GPTs的采用不断增加，对其安全漏洞的担忧也在加剧。现有关于这些漏洞的研究大部分仍处于理论层面，往往缺乏关于相关风险的实证、大规模和统计上严谨的评估。在这项研究中，我们分析了14,904个自定义GPT，评估了它们对七种可利用威胁（如角色扮演攻击、系统提示泄漏、钓鱼内容生成和恶意代码合成）的易感性，这些威胁涵盖了OpenAI市场内各种类别和受欢迎程度的软件。我们引入了一个多指标排名系统来检查自定义GPT的受欢迎程度与其相关安全风险之间的关系。我们的研究结果显示，超过95%的自定义GPT缺乏足够的安全保护。最常见的漏洞包括基于角色扮演的漏洞（96.51%）、系统提示泄漏（92.20%）和钓鱼（91.22%）。此外，我们还证明了OpenAI的基础模型本身存在着固有的安全弱点，这些弱点经常在自定义GPT中被继承或放大。这些结果突显了加强安全措施和严格内容审查的紧迫需求，以确保基于GPT的应用程序的安全部署。