LLM2D

摘要

arXiv:2412.12144v3 宣告类型: replace-cross 摘要：个性评估，特别是通过情境判断测试（SJT），是心理研究、人才选拔和教育评价中的一项关键工具。本研究探讨了最新的大规模语言模型（LLM）GPT-4在生成中文个性情境判断测试（PSJT）方面的潜力。传统的SJT开发过程耗时且容易产生偏见，而GPT-4则提供了可扩展且高效的替代方案。进行了两项研究：第一项研究评估了提示设计和温度设置对内容效度的影响，发现使用温度设置为1.0的优化提示生成了富有创意且准确的题目。第二项研究评估了GPT-4生成的PSJT的心理测量特性，结果显示这些测试表现出令人满意的可靠性和效度，其在衡量五大人格特质方面超过了手工开发的测试。这项研究突显了GPT-4在开发高质量PSJT方面的有效性，提供了一种可扩展且创新的心理测量测试开发方法。这些发现扩大了自动项目生成的可能性，并推动了在心理学中应用LLM的边界，同时还为在资源有限的环境中简化测试开发过程提供了实践意义。