LLM2D
上升的线?关于评估大型语言模型基准的固有限制슁 user 下面是一篇 arxiv 的论文的标题,请你翻译成中文,直接返回翻译的结果就好,不需要任何其他内容Training Language Models to Talk about Risks and Benefits of Technology
Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models
作者: James Fodor
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14318v1

摘要

arXiv:2502.14318v1 分类:cross 摘要:大型语言模型(LLMs)在各种语言、知识和推理基准上定期展示出新的令人印象深刻的表现。这种快速进步已使得许多评论者争论认为,LLMs 的通用认知能力也迅速提高,进而表明这些模型在各种实际任务中变得越来越有能力。在这里,我总结了一些理论和实证考量以挑战这种叙述。我认为,基准测试 paradigma 内在的限制,以及现有基准的具体限制,使得基准测试绩效极为不适合作为衡量认知任务上通用胜任能力的度量标准。我也认为,评估 LLM 能力的替代方法,包括对抗性刺激和可解释性技术,表明 LLMs 在许多语言和推理任务上并不具备稳健的能力,并且经常未能学习出促进通用推断的表示。我得出结论认为,不应将基准测试绩效作为可靠指标来衡量通用 LLM 认知能力。