LLM2D

摘要

arXiv:2504.16078v1 机构类型: cross 摘要：大型语言模型（LLMs）的成功激发了各种代理应用的兴趣。一个关键假设是，通过利用常识和链式思考（CoT）推理，LLMs能够有效地探索和高效地解决复杂的领域。然而，已经发现LLM代理在探索上存在次优性，并且在知道如何行动方面的差距，即无法有效地利用模型中存在的知识来行动。在本文中，我们系统地研究了LLMs在决策场景中表现得不够优化的原因。特别是，我们密切检查了三种常见的失败模式：贪婪性、频率偏差以及知道如何行动的差距。我们通过使用强化学习（RL）微调自动生成的CoT推理来缓解这些不足。我们在多臂bandit、上下文bandit和井字棋等实验中表明，通过RL微调增强了LLMs的决策能力，增加了探索并缩小了知道如何行动的差距。最后，我们研究了经典的探索机制，如ε-贪婪，以及特定于LLM的方法，如自我校正和自我一致性，以使LLMs在决策方面更有效地进行微调。