LLM2D

摘要

arXiv:2502.07577v2 类别：交叉学科摘要：基础模型已成为通用助手，通过在大规模网络数据上进行训练，在众多领域展示出多种能力。在任何新模型中精确地描述其整个能力谱和潜在风险的部分仍然是一个挑战。现有的评估方法通常需要大量的人力，设计更复杂、更具挑战性的任务越来越困难。我们提出了自动能力发现（ACD），这是一个框架，将一个基础模型指定为科学家，系统地为被试模型（可能是自身）提出开放性任务。通过结合前沿模型和开放性领域的想法，ACD 自动系统地揭示了被试模型的惊讶能力和失败。我们在一系列基础模型（包括GPT、Claude和Llama系列）中展示了ACD，表明它自动揭示了成千上万的能力，这些能力对于任何单一团队来说都是难以发现的。我们进一步通过广泛的人员调查验证了我们方法的自动化评分方法，发现模型生成的评估与人工评估之间具有高度的一致性。借助基础模型既能创造任务又能自我评估的能力，ACD 是实现可扩展的、自动化的新型AI系统评估的重要一步。所有代码和评估日志在 https://github.com/conglu1997/ACD 开放源代码。