LLM2D

摘要

arXiv:2505.05541v1 宣布类型: 新摘要：随着前沿AI系统向变革性能力迈进，我们需要在度量和评估这些系统方面进行并行变革，以确保安全并指导治理。尽管基准一直是估计模型能力的主要方法，但它们往往无法建立真实上限或预测部署行为。本文综述了AI安全评估的迅速演变领域，提出了围绕三个维度的系统分类：我们测量的属性，我们如何测量它们，以及这些测量如何集成到框架中。我们展示了评估超越基准的方法，通过测量模型在极限下可以做什么（能力）、默认表现出的行为倾向（倾向），以及即使面临颠覆性对抗AI，我们的安全措施是否仍然有效（控制）来进行评估。这些属性通过行为技术（如支撑结构、红队演练和监督微调），以及内部技术（如表征分析和基于机制的可解释性）进行测量。我们对一些安全关键的能力进行了更深入的解释，如网络安全利用、欺骗、自主复制和情境意识，以及令人担忧的倾向，如权力追求和 scheming。本文综述了这些评估方法如何集成到治理框架中，将结果转化为具体的开发决策。我们还指出了安全评估的挑战 - 证明不存在能力、模型的潜在保守性，以及“安全漂白”的激励 - 同时指出了有希望的研究方向。通过综合分散的资源，本文综述旨在为理解AI安全评估提供一个中心参考点。