LLM2D
潜变量视角下的 LLMs 认知幻象
Cognitive phantoms in LLMs through the lens of latent variables
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15324v1

摘要

大型语言模型 (LLM) 正在越来越多地应用于现实世界,因此需要更好地理解它们的行為。它们的规模和复杂性使得传统的评估方法难以应用,导致了受心理学领域启发的替代方法的出现。最近的研究对 LLM 进行了心理测量问卷调查,报告了 LLM 中存在类似人类的特征,这些特征可能影响 LLM 的行为。然而,这种方法存在效度问题:它预设了这些特征存在于 LLM 中,并且可以用为人类设计的工具进行测量。典型的程序很少承认 LLM 中的效度问题,而是比较和解释 LLM 的平均得分。本研究通过使用两个经过验证的性格问卷,比较了人类和三个 LLM 之间的性格潜在结构,来调查这个问题。研究结果表明,为人类设计的问卷不能有效地测量 LLM 中的类似结构,并且这些结构可能根本不存在于 LLM 中,这突出了对 LLM 响应进行心理测量分析以避免追逐认知幻影的必要性。