LLM2D
使用大型语言模型自动生成人格情境判断测试题
Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models
作者: Chang-Jin Li, Jiyuan Zhang, Yun Tang, Jian Li
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2412.12144v3

摘要

arXiv:2412.12144v3 宣告类型: replace-cross 摘要:个性评估,特别是通过情境判断测试(SJT),是心理研究、人才选拔和教育评价中的一项关键工具。本研究探讨了最新的大规模语言模型(LLM)GPT-4在生成中文个性情境判断测试(PSJT)方面的潜力。传统的SJT开发过程耗时且容易产生偏见,而GPT-4则提供了可扩展且高效的替代方案。进行了两项研究:第一项研究评估了提示设计和温度设置对内容效度的影响,发现使用温度设置为1.0的优化提示生成了富有创意且准确的题目。第二项研究评估了GPT-4生成的PSJT的心理测量特性,结果显示这些测试表现出令人满意的可靠性和效度,其在衡量五大人格特质方面超过了手工开发的测试。这项研究突显了GPT-4在开发高质量PSJT方面的有效性,提供了一种可扩展且创新的心理测量测试开发方法。这些发现扩大了自动项目生成的可能性,并推动了在心理学中应用LLM的边界,同时还为在资源有限的环境中简化测试开发过程提供了实践意义。