摘要
arXiv:2505.05541v1 宣布类型: 新
摘要:随着前沿AI系统向变革性能力迈进,我们需要在度量和评估这些系统方面进行并行变革,以确保安全并指导治理。尽管基准一直是估计模型能力的主要方法,但它们往往无法建立真实上限或预测部署行为。本文综述了AI安全评估的迅速演变领域,提出了围绕三个维度的系统分类:我们测量的属性,我们如何测量它们,以及这些测量如何集成到框架中。我们展示了评估超越基准的方法,通过测量模型在极限下可以做什么(能力)、默认表现出的行为倾向(倾向),以及即使面临颠覆性对抗AI,我们的安全措施是否仍然有效(控制)来进行评估。这些属性通过行为技术(如支撑结构、红队演练和监督微调),以及内部技术(如表征分析和基于机制的可解释性)进行测量。我们对一些安全关键的能力进行了更深入的解释,如网络安全利用、欺骗、自主复制和情境意识,以及令人担忧的倾向,如权力追求和 scheming。本文综述了这些评估方法如何集成到治理框架中,将结果转化为具体的开发决策。我们还指出了安全评估的挑战 - 证明不存在能力、模型的潜在保守性,以及“安全漂白”的激励 - 同时指出了有希望的研究方向。通过综合分散的资源,本文综述旨在为理解AI安全评估提供一个中心参考点。