LLM2D
评估大型语言模型的目标导向性
Evaluating the Goal-Directedness of Large Language Models
作者: Tom Everitt, Cristina Garbacea, Alexis Bellot, Jonathan Richens, Henry Papadatos, Sim\'eon Campos, Rohin Shah
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11844v1

摘要

arXiv:2504.11844v1 通知类型: 新 摘要: 语言模型在实现给定目标的过程中利用其能力到什么程度?我们将这一点视为其目标导向性的指标。我们在涉及信息收集、认知努力和计划执行的任务中评估目标导向性,通过子任务来推断每个模型的相关能力。我们对来自Google DeepMind、OpenAI和Anthropic的语言模型的评估显示,目标导向性在不同任务中相对一致,但与任务表现不同,也只有中度受到动机提示的影响。值得注意的是,大多数模型并不是完全目标导向的。我们希望我们的目标导向性评估能够更好地监控语言模型的进步,并促进对语言模型代理属性的更慎重设计选择。