摘要
arXiv:2502.01436v2 宣布类型:替换-交叉
摘要:大型语言模型(LLMs)获得了前所未有的重视,已在多种领域得到广泛应用,并深入影响社会。对通用大语言模型(如生成预训练变压器GPT)进行特定任务的微调,促进了众多定制GPT的出现。这些定制模型越来越多地通过专门的市场,如OpenAI的GPT Store提供。然而,它们的黑盒性质带来了重大的安全和合规性风险。在本文中,我们提出了一种可扩展的框架,用于自动评估定制GPTs与OpenAI使用政策的符合性,这些政策规定了这些系统的行为。我们的框架整合了三个核心组件:(1)从GPT商店自动发现和收集模型,(2)针对特定政策类别和每个目标GPT特征定制的红队提示生成器,以及(3)利用LLM作为法官的技术分析每对提示-响应对,以识别潜在的政策违反行为。我们通过手动标注的地面真实情况验证了该框架,并通过涵盖782个定制GPT的大型研究,分别在三类中进行评估:浪漫型、网络安全型和学术型GPTs。我们的手动标注过程在识别政策违规行为方面获得了0.975的F1 score,证实了该框架评估的可靠性。结果表明,所分析的58.7%的模型显示出非合规的迹象,揭示了GPT Store审查和批准过程中的脆弱性。此外,我们的研究结果表明,一个模型的受欢迎程度与合规性无关,且大多数非合规问题源于基模型固有的行为,而不是用户驱动的定制。我们认为这种方法可以扩展到其他聊天平台和政策领域,从而提高基于大语言模型系统的安全性。