LLM2D

摘要

arXiv:2411.14251v2 宣告类型: replace-cross 摘要: 强化学习（RL）以马尔可夫决策过程（MDP）的形式将决策制定数学化。通过MDP，研究人员在游戏、机器人和语言模型等各种领域取得了显著的突破。本文通过将传统的MDP扩展到基于自然语言的表示空间，寻求新的可能性——自然语言强化学习（NLRL）。具体而言，NLRL创新地将RL的基本原则，包括任务目标、策略、价值函数、贝尔曼方程和策略迭代，重新定义为其语言对应物。得益于大型语言模型（LLMs）的最新进展，NLRL可以通过纯提示或基于梯度的训练，实用性地实现类似RL的策略和价值提升。在Maze、Breakthrough和Tic-Tac-Toe游戏中进行的实验表明，NLRL框架在各种用途案例中具有有效性、效率和可解释性。