LLM2D
向着更安全的聊天机器人:自定义GPT合规性评估框架
Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs
作者: David Rodriguez, William Seymour, Jose M. Del Alamo, Jose Such
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01436v1

摘要

arXiv:2502.01436v1 类别: cross 摘要:大型语言模型(LLMs)获得了前所未有的重要性,已经在多个领域得到广泛应用,并深深融入了社会。将通用的大语言模型,如生成预训练变换器(GPT),进行特定任务的微调,促进了各种定制GPT的出现。这些定制模型越来越多地通过专门的市场平台提供,如OpenAI的GPT商店。然而,它们的黑箱性质引入了重大安全和合规风险。在这项工作中,我们提出了一种可扩展的框架,用于自动评估定制GPTs是否符合OpenAI的使用政策,这些政策界定了这些系统的可接受行为。该框架集成了三个核心组件:(1)自动发现和从GPT商店收集模型数据,(2)针对特定政策类别和每个目标GPT的特点定制的红队触发器生成器,以及(3)LLM作为裁判的技术,用于分析每个触发器-响应对,以发现潜在的政策违规行为。 我们使用手动标注的真实数据来验证该框架,并通过一项大规模研究进行了评估,该研究涉及来自三个类别(浪漫、网络安全和学术GPTs)的782个定制GPTs。我们的手动标注过程在识别政策违规方面的F1分数为0.975,确认了该框架评估的可靠性。研究结果表明,58.7%的分析模型表现出非合规的迹象,揭示了GPT商店审查和批准流程中的弱点。此外,我们的研究显示,模型的流行程度并不与合规性相关,而不合规问题大多源自基模型行为,而不是用户驱动的自定义。我们相信,这种方法可以扩展到其他聊天机器人平台和政策领域,提高基于LLM的系统的安全性。