摘要
arXiv:2406.07358v4 宣告类型: 修改
摘要:确保人工智能系统安全的可信能力评估至关重要,并且已成为人工智能监管的关键组成部分。然而,人工智能系统的开发者或系统本身可能会有低估人工智能实际能力的动机。这些相互冲突的利益导致了一种称为“埋雷”(sandbagging)的问题,我们定义为在评估过程中战略性地表现不佳。在本文中,我们评估了当前语言模型(LMs)的埋雷能力。我们促使前沿语言模型,如GPT-4和Claude 3 Opus,在危险的能力评估中选择性地表现不佳,同时在一般(无害)能力评估中保持性能。此外,我们发现模型可以通过在合成数据集上进行微调,除非给予密码,否则可以隐藏特定的能力。这种行为可以扩展到高性能、保留的基准,如WMDP。此外,我们展示了前沿模型和较小的模型可以被提示或密码锁定,以在能力评估中达到特定的分数。我们部分成功地将模型锁定以模仿较弱模型会给出的答案。总之,我们的结果表明,能力评估容易受到埋雷的影响。这种脆弱性降低了评估的可信度,并因此损害了关于先进人工智能系统开发和部署的重要安全决策。