摘要
大型语言模型(LLM)的开发和评估主要集中在单个能力上。然而,这忽视了现实世界任务中经常需要的跨不同类型专业知识的多种能力的交集,我们称之为跨能力。为了系统地探索这一概念,我们首先定义了七项核心个人能力,然后将它们配对形成七项常见跨能力,每项都由人工构建的分类法支持。基于这些定义,我们引入了 CrossEval,这是一个包含 1,400 个人工标注提示的基准,每个个人和跨能力有 100 个提示。为了确保可靠的评估,我们让专家标注者评估 4,200 个模型响应,收集了 8,400 个带有详细解释的人工评级,作为参考示例。我们的发现表明,在静态评估和增强特定能力的尝试中,当前的 LLM 一直表现出“最弱环节定律”,其中跨能力性能受到最弱组成部分的严重限制。具体而言,在来自 17 个模型的 58 个跨能力分数中,38 个分数低于所有个人能力,而 20 个分数介于强和弱之间,但更接近较弱的能力。这些结果突出了 LLM 在跨能力任务中的表现不佳,因此,识别和改进最弱能力对于未来的研究来说至关重要,以优化复杂的多维场景中的性能。