LLM2D

摘要

arXiv:2505.03947v1 公告类型: 新闻摘要: 强化学习研究的一个主要目标是开发出能够迅速适应并掌握新任务的一般性代理。尽管强化学习游戏代理已经掌握了许多阿特利游戏，但它们在每种游戏上的训练仍然非常缓慢且成本高昂。在本文中，我们展示了最新推理LLM在零样本设置下，经过领域外RL训练后，可以玩一个名为Frogger的挑战性阿特利游戏。然后，我们探讨了上下文学习和推理努力对LLM性能的影响。最后，我们展示了如何使用LLM演示来增强传统RL方法，这显著提高了它们的性能和样本效率。我们的实现已在https://github.com/AlienKevin/frogger 开源。