LLM2D

摘要

arXiv:2504.21326v1 类型：交叉摘要：许多实际的强化学习环境具有离散的分解动作空间，这会产生大量的组合动作集，从而带来重大挑战。现有方法利用动作空间的规律结构，采用线性分解Q函数的方法，从而避免列出所有分解动作的组合。在本文中，我们考虑在原始动作空间的较低维度投影子空间上定义的Q函数，并通过因果统计中的无未观察混杂变量的因果效应估计来研究分解Q函数的无偏性条件。这导致了一种一般方案，我们称之为动作分解强化学习，在这种方案中，使用投影的Q函数来近似标准无模型强化学习算法中的Q函数。提出的这种方法在基于模型的强化学习设置中显示出改进了样本复杂性。我们在在线连续控制环境和一个实际的离线脓毒症治疗环境中，相较于最先进的基线方法，展示了样本效率上的改进。