LLM2D

摘要

大型语言模型 (LLM) 正在越来越多地应用于现实世界，因此需要更好地理解它们的行為。它们的规模和复杂性使得传统的评估方法难以应用，导致了受心理学领域启发的替代方法的出现。最近的研究对 LLM 进行了心理测量问卷调查，报告了 LLM 中存在类似人类的特征，这些特征可能影响 LLM 的行为。然而，这种方法存在效度问题：它预设了这些特征存在于 LLM 中，并且可以用为人类设计的工具进行测量。典型的程序很少承认 LLM 中的效度问题，而是比较和解释 LLM 的平均得分。本研究通过使用两个经过验证的性格问卷，比较了人类和三个 LLM 之间的性格潜在结构，来调查这个问题。研究结果表明，为人类设计的问卷不能有效地测量 LLM 中的类似结构，并且这些结构可能根本不存在于 LLM 中，这突出了对 LLM 响应进行心理测量分析以避免追逐认知幻影的必要性。