LLM2D

摘要

arXiv:2504.20997v1 通知类型: 横向交叉摘要: 在强化学习（RL）领域中，以大规模语言模型（LLMs）为中心的序列决策代理的设计是一个不断发展的领域。虽然由现代LLMs驱动的自主决策代理可以促进众多实际应用，但这些成功需要具备数据高效强化学习能力的代理。在强化学习中实现数据效率的一个关键障碍是探索，许多近期提出的LLM代理设计提案都难以应对这一挑战。与此同时，强化学习文献中的一些经典算法能够优雅地处理探索问题，但在纯粹自然语言环境中实施这些技术可能颇具挑战性。在本研究中，我们不是依赖于微调或上下文学习来促使LLMs隐含模仿RL算法，而是展示了如何使用LLMs显式实现一个已有的RL算法（强化学习的后验采样），该算法的统计高效的探索能力已经被充分研究。我们提供了实验证据，证明我们基于LLMs实现的已知数据高效RL算法在要求谨慎探索的自然语言任务中可以更为有效。