LLM2D
自然语言强化学习
Natural Language Reinforcement Learning
作者: Xidong Feng, Bo Liu, Ziyu Wan, Haotian Fu, Girish A. Koushik, Zhiyuan Hu, Mengyue Yang, Ying Wen, Jun Wang
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2411.14251v2

摘要

arXiv:2411.14251v2 宣告类型: replace-cross 摘要: 强化学习(RL)以马尔可夫决策过程(MDP)的形式将决策制定数学化。通过MDP,研究人员在游戏、机器人和语言模型等各种领域取得了显著的突破。本文通过将传统的MDP扩展到基于自然语言的表示空间,寻求新的可能性——自然语言强化学习(NLRL)。具体而言,NLRL创新地将RL的基本原则,包括任务目标、策略、价值函数、贝尔曼方程和策略迭代,重新定义为其语言对应物。得益于大型语言模型(LLMs)的最新进展,NLRL可以通过纯提示或基于梯度的训练,实用性地实现类似RL的策略和价值提升。在Maze、Breakthrough和Tic-Tac-Toe游戏中进行的实验表明,NLRL框架在各种用途案例中具有有效性、效率和可解释性。