摘要
大型语言模型的策略无论是显式的宪法还是隐式的奖励模型,都很难评估其覆盖范围,因为策略必须应对无限的现实世界情况。我们介绍了一种受制图学启发的 AI 策略设计流程,该流程开发了可视化和迭代地图的策略,即使无法完全覆盖。借助 Policy Projector,策略设计师可以调查模型输入-输出对的景观,定义自定义区域(例如,“暴力”),并使用可应用于 LLM 输出的规则(例如,如果输出包含“暴力”和“图形细节”,则重写不包含“图形细节”)在这些区域中导航。Policy Projector 支持使用 LLM 分类和引导进行交互式策略创作,以及反映策略设计师工作的可视化地图。在对 12 位 AI 安全专家的评估中,我们的系统帮助策略设计师解决超出现有全面危害分类法的有问题模型行为。