LLM2D
大型语言模型代理向高效探索的方向努力
Toward Efficient Exploration by Large Language Model Agents
作者: Dilip Arumugam, Thomas L. Griffiths
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20997v1

摘要

arXiv:2504.20997v1 通知类型: 横向交叉 摘要: 在强化学习(RL)领域中,以大规模语言模型(LLMs)为中心的序列决策代理的设计是一个不断发展的领域。虽然由现代LLMs驱动的自主决策代理可以促进众多实际应用,但这些成功需要具备数据高效强化学习能力的代理。在强化学习中实现数据效率的一个关键障碍是探索,许多近期提出的LLM代理设计提案都难以应对这一挑战。与此同时,强化学习文献中的一些经典算法能够优雅地处理探索问题,但在纯粹自然语言环境中实施这些技术可能颇具挑战性。在本研究中,我们不是依赖于微调或上下文学习来促使LLMs隐含模仿RL算法,而是展示了如何使用LLMs显式实现一个已有的RL算法(强化学习的后验采样),该算法的统计高效的探索能力已经被充分研究。我们提供了实验证据,证明我们基于LLMs实现的已知数据高效RL算法在要求谨慎探索的自然语言任务中可以更为有效。