LLM2D

摘要

本文评估了大型语言模型 (LLM) 在战略场景中是否能像人类一样做出偏好判断，并与已知的实证结果进行了比较。结果表明，Solar 和 Mistral 在价值观驱动的偏好方面表现出与人类一致的稳定性，并在囚徒困境（包括赌注大小效应）和旅行者困境（包括惩罚大小效应）中表现出与人类相似的合作偏好。我们建立了模型规模、价值观驱动的偏好和肤浅性之间的关系。最后，本文结果表明，那些倾向于更不容易崩溃的模型依赖于滑动窗口注意力机制，这暗示了潜在的联系。此外，我们还贡献了一种从任意 LLM 中构建偏好关系的新方法，并为旅行者困境中的人类行为假说提供了支持。