摘要
arXiv:2504.16078v1 机构类型: cross
摘要:大型语言模型(LLMs)的成功激发了各种代理应用的兴趣。一个关键假设是,通过利用常识和链式思考(CoT)推理,LLMs能够有效地探索和高效地解决复杂的领域。然而,已经发现LLM代理在探索上存在次优性,并且在知道如何行动方面的差距,即无法有效地利用模型中存在的知识来行动。在本文中,我们系统地研究了LLMs在决策场景中表现得不够优化的原因。特别是,我们密切检查了三种常见的失败模式:贪婪性、频率偏差以及知道如何行动的差距。我们通过使用强化学习(RL)微调自动生成的CoT推理来缓解这些不足。我们在多臂bandit、上下文bandit和井字棋等实验中表明,通过RL微调增强了LLMs的决策能力,增加了探索并缩小了知道如何行动的差距。最后,我们研究了经典的探索机制,如ε-贪婪,以及特定于LLM的方法,如自我校正和自我一致性,以使LLMs在决策方面更有效地进行微调。