LLM2D
规则瓶颈 reinforcement 学习:语言代理在资源分配中的联合解释与决策优化
Rule-Bottleneck Reinforcement Learning: Joint Explanation and Decision Optimization for Resource Allocation with Language Agents
作者: Mauricio Tec, Guojun Xiong, Haichuan Wang, Francesca Dominici, Milind Tambe
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10732v1

摘要

arXiv:2502.10732v1 类别: cross 摘要: 深度强化学习(RL)在医疗保健、公共政策和资源管理等领域解决序列资源分配问题方面表现出色。然而,深度 RL 策略通常缺乏透明度和适应性,这使它们难以与人类决策者并行部署。相比之下,受大型语言模型(LLMs)驱动的语言代理提供了可人类理解的推理,但在有效的决策制定方面可能存在挑战。为了解决这一差距,我们提出了一种新颖的方法——规则瓶颈强化学习(RBRL),该方法联合优化决策和解释。在每一步中,RBRL 使用 LLM 生成候选规则,使用基于注意力的 RL 策略在它们之间进行选择,并通过链式推理来决定环境动作和解释。RL 规则的选择通过环境奖励和由 LLM 判定的可解释性度量进行优化。在实际场景中的评估结果显示,RBRL 在与深度 RL 的竞争力方面表现出色,并且相对于 LLM 微调具有效率优势。进一步的调查还证实了其解释质量的提升。