摘要
arXiv:2502.07577v1 Announce Type: cross
摘要:基础模型已经成为通用助手,通过在大规模网络数据上进行训练,它们在众多领域中显示出多样化的功能。在任何新模型中精确地描述其全部能力谱和潜在风险的大部分内容仍是一项挑战。现有的评估方法往往需要大量的人力投入,并且为了设计更难的挑战以应对更强的模型,要求越来越高。我们提出了一种自动能力发现(ACD)框架,该框架指定一个基础模型作为科学家,系统地提出开放性的任务以探测主题模型(可能是本身)的能力。通过结合前沿模型与开放性领域中的想法,ACD 自动且系统地揭示了主题模型中既出乎意料的能力以及失败之处。我们展示了 ACD 在一系列基础模型(包括 GPT、Claude 和 Llama 系列)上的应用,展示了它能够自动揭示单个团队难以发现的成千上万种能力。我们进一步通过广泛的问卷调查验证了该方法的自动评分,发现模型生成的评估与人类评估之间存在高度一致。利用基础模型既能够创建任务又能够自我评估的能力,ACD 是朝着可扩展且自动化的新型 AI 系统评估方向迈出的重要一步。所有代码和评估日志均可在 https://github.com/conglu1997/ACD 开放获取。