摘要
arXiv:2505.09901v1 交叉公告类型:cross
摘要:大型语言模型(LLMs)越来越多地用于在复杂的序列决策任务中模拟或自动化人类行为。一个自然的问题是LLMs的决策行为是否类似人类,并且能否达到相当(或更优)的性能。在本文中,我们专注于探索与利用(E&E)权衡,这是在不确定性下动态决策的基本方面。我们采用认知科学和精神病学文献中引入的经典多臂_bandit(MAB)任务,对LLMs、人类和MAB算法的E&E策略进行比较研究。我们使用可解释的选择模型来捕捉代理的E&E策略,并探讨显式推理,通过提示策略和推理增强的模型,如何影响LLMs的决策。我们发现,推理使LLMs朝向更具人类特征的行为转变,表现为随机探索和定向探索的混合。在简单的稳定任务中,具有推理功能的LLMs在随机探索和定向探索方面与人类表现出相似的水平。然而,在更复杂、非稳定环境中,尽管在某些情况下埐的悔恨程度相似,LLMs在有效定向探索方面难以与人类匹配。我们的发现突显了LLMs作为人类行为模拟和自动化决策工具的潜力和局限,并指出了改进的潜在领域。