LLM2D

摘要

arXiv:2502.01436v1 类别: cross 摘要：大型语言模型（LLMs）获得了前所未有的重要性，已经在多个领域得到广泛应用，并深深融入了社会。将通用的大语言模型，如生成预训练变换器（GPT），进行特定任务的微调，促进了各种定制GPT的出现。这些定制模型越来越多地通过专门的市场平台提供，如OpenAI的GPT商店。然而，它们的黑箱性质引入了重大安全和合规风险。在这项工作中，我们提出了一种可扩展的框架，用于自动评估定制GPTs是否符合OpenAI的使用政策，这些政策界定了这些系统的可接受行为。该框架集成了三个核心组件：（1）自动发现和从GPT商店收集模型数据，（2）针对特定政策类别和每个目标GPT的特点定制的红队触发器生成器，以及（3）LLM作为裁判的技术，用于分析每个触发器-响应对，以发现潜在的政策违规行为。我们使用手动标注的真实数据来验证该框架，并通过一项大规模研究进行了评估，该研究涉及来自三个类别（浪漫、网络安全和学术GPTs）的782个定制GPTs。我们的手动标注过程在识别政策违规方面的F1分数为0.975，确认了该框架评估的可靠性。研究结果表明，58.7%的分析模型表现出非合规的迹象，揭示了GPT商店审查和批准流程中的弱点。此外，我们的研究显示，模型的流行程度并不与合规性相关，而不合规问题大多源自基模型行为，而不是用户驱动的自定义。我们相信，这种方法可以扩展到其他聊天机器人平台和政策领域，提高基于LLM的系统的安全性。