LLM2D

摘要

arXiv:2502.01436v2 宣布类型：替换-交叉摘要：大型语言模型（LLMs）获得了前所未有的重视，已在多种领域得到广泛应用，并深入影响社会。对通用大语言模型（如生成预训练变压器GPT）进行特定任务的微调，促进了众多定制GPT的出现。这些定制模型越来越多地通过专门的市场，如OpenAI的GPT Store提供。然而，它们的黑盒性质带来了重大的安全和合规性风险。在本文中，我们提出了一种可扩展的框架，用于自动评估定制GPTs与OpenAI使用政策的符合性，这些政策规定了这些系统的行为。我们的框架整合了三个核心组件：（1）从GPT商店自动发现和收集模型，（2）针对特定政策类别和每个目标GPT特征定制的红队提示生成器，以及（3）利用LLM作为法官的技术分析每对提示-响应对，以识别潜在的政策违反行为。我们通过手动标注的地面真实情况验证了该框架，并通过涵盖782个定制GPT的大型研究，分别在三类中进行评估：浪漫型、网络安全型和学术型GPTs。我们的手动标注过程在识别政策违规行为方面获得了0.975的F1 score，证实了该框架评估的可靠性。结果表明，所分析的58.7%的模型显示出非合规的迹象，揭示了GPT Store审查和批准过程中的脆弱性。此外，我们的研究结果表明，一个模型的受欢迎程度与合规性无关，且大多数非合规问题源于基模型固有的行为，而不是用户驱动的定制。我们认为这种方法可以扩展到其他聊天平台和政策领域，从而提高基于大语言模型系统的安全性。