LLM2D
大型语言模型是否学习了人类般的策略偏好?
Do Large Language Models Learn Human-Like Strategic Preferences?
作者: Jesse Roberts, Kyle Moore, Doug Fisher
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2404.08710v2

摘要

本文评估了大型语言模型 (LLM) 在战略场景中是否能像人类一样做出偏好判断,并与已知的实证结果进行了比较。结果表明,Solar 和 Mistral 在价值观驱动的偏好方面表现出与人类一致的稳定性,并在囚徒困境(包括赌注大小效应)和旅行者困境(包括惩罚大小效应)中表现出与人类相似的合作偏好。我们建立了模型规模、价值观驱动的偏好和肤浅性之间的关系。最后,本文结果表明,那些倾向于更不容易崩溃的模型依赖于滑动窗口注意力机制,这暗示了潜在的联系。此外,我们还贡献了一种从任意 LLM 中构建偏好关系的新方法,并为旅行者困境中的人类行为假说提供了支持。