LLM2D

摘要

arXiv:2505.09901v1 交叉公告类型：cross 摘要：大型语言模型（LLMs）越来越多地用于在复杂的序列决策任务中模拟或自动化人类行为。一个自然的问题是LLMs的决策行为是否类似人类，并且能否达到相当（或更优）的性能。在本文中，我们专注于探索与利用（E&E）权衡，这是在不确定性下动态决策的基本方面。我们采用认知科学和精神病学文献中引入的经典多臂_bandit（MAB）任务，对LLMs、人类和MAB算法的E&E策略进行比较研究。我们使用可解释的选择模型来捕捉代理的E&E策略，并探讨显式推理，通过提示策略和推理增强的模型，如何影响LLMs的决策。我们发现，推理使LLMs朝向更具人类特征的行为转变，表现为随机探索和定向探索的混合。在简单的稳定任务中，具有推理功能的LLMs在随机探索和定向探索方面与人类表现出相似的水平。然而，在更复杂、非稳定环境中，尽管在某些情况下埐的悔恨程度相似，LLMs在有效定向探索方面难以与人类匹配。我们的发现突显了LLMs作为人类行为模拟和自动化决策工具的潜力和局限，并指出了改进的潜在领域。