LLM2D

摘要

arXiv:2502.10732v1 类别: cross 摘要: 深度强化学习（RL）在医疗保健、公共政策和资源管理等领域解决序列资源分配问题方面表现出色。然而，深度 RL 策略通常缺乏透明度和适应性，这使它们难以与人类决策者并行部署。相比之下，受大型语言模型（LLMs）驱动的语言代理提供了可人类理解的推理，但在有效的决策制定方面可能存在挑战。为了解决这一差距，我们提出了一种新颖的方法——规则瓶颈强化学习（RBRL），该方法联合优化决策和解释。在每一步中，RBRL 使用 LLM 生成候选规则，使用基于注意力的 RL 策略在它们之间进行选择，并通过链式推理来决定环境动作和解释。RL 规则的选择通过环境奖励和由 LLM 判定的可解释性度量进行优化。在实际场景中的评估结果显示，RBRL 在与深度 RL 的竞争力方面表现出色，并且相对于 LLM 微调具有效率优势。进一步的调查还证实了其解释质量的提升。