摘要
大型语言模型 (LLM) 的开发和评估主要集中在单个能力上。然而,这忽略了现实世界任务中通常需要的不同类型专业知识的多种能力的交集,我们称之为跨能力。为了系统地探索这一概念,我们首先定义了七项核心个体能力,然后将它们配对形成七种常见的跨能力,每种能力都由一个手动构建的分类法支持。在此基础上,我们介绍了 CrossEval,这是一个包含 1,400 个人工标注提示的基准,每个个体和跨能力有 100 个提示。为了确保评估的可靠性,我们邀请专家注释者评估 4,200 个模型响应,收集 8,400 个带有详细解释的人工评分,作为参考示例。我们的研究结果表明,在静态评估和增强特定能力的尝试中,当前的 LLM 始终表现出“最弱环节定律”,即跨能力性能受到最弱组件的显著限制。具体而言,在 17 个模型的 58 个跨能力得分中,有 38 个得分低于所有个体能力,而 20 个得分介于强和弱之间,但更接近较弱的能力。这些结果突出了 LLM 在跨能力任务中的表现不佳,因此,识别和改进最弱能力是未来研究的重中之重,以便在复杂的多维场景中优化性能。