摘要
本文评估了大型语言模型 (LLM) 在战略场景中是否能像人类一样做出偏好判断,并与已知的实证结果进行了比较。结果表明,Solar 和 Mistral 在价值观驱动的偏好方面表现出与人类一致的稳定性,并在囚徒困境(包括赌注大小效应)和旅行者困境(包括惩罚大小效应)中表现出与人类相似的合作偏好。我们建立了模型规模、价值观驱动的偏好和肤浅性之间的关系。最后,本文结果表明,那些倾向于更不容易崩溃的模型依赖于滑动窗口注意力机制,这暗示了潜在的联系。此外,我们还贡献了一种从任意 LLM 中构建偏好关系的新方法,并为旅行者困境中的人类行为假说提供了支持。