LLM2D

摘要

arXiv:2505.08245v1 声明类型: cross 摘要：大语言模型（LLMs）的迅猛发展已经超越了传统的评估方法。这提出了新的挑战，如测量类似人类的心理构念、超越静态和特定任务的基准以及建立以人类为中心的评估方法。这些挑战与心理学测量学紧密相关，心理学测量学是量化人类心理学的非物质方面，如性格、价值观和智力的科学。本文介绍了新兴的跨学科领域——LLM心理学测量学，该领域利用心理学测量工具、理论和原则来评估、理解和提升LLM。我们系统地探讨了心理学测量学在塑造基准原则、拓宽评估范围、改进方法论、验证结果以及推进LLM能力方面的作用。本文整合了多元视角，为跨学科研究人员提供了一个结构化框架，使他们能够更全面地理解这一新兴领域。最终，我们旨在为与人类水平人工智能相一致的未来评估范式提供可操作的见解，并促进以人类为中心的人工智能系统的进步以服务于社会利益。有关LLM心理学测量资源的精选库可在https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics获得。