摘要
arXiv:2505.04822v1 宣告类型: 新
摘要: 动作值在流行的行为强化学习(Reinforcement Learning, RL)模型中扮演着中心角色。然而,动作值是否明确表示的观点一直存在广泛的争论。因此,批评者反复建议应优先选择策略梯度(Policy Gradient, PG)模型而非基于值(Value-based, VB)模型,作为解决这一困境的一种可能方案。在这里,我们认为这种解决方案是令人满意的。这是因为PG方法实际上并不是“价值无关”的——尽管它们在执行时并不依赖明确表示的价值(刺激-响应映射),但在学习时却需要价值的表示。因此,切换到PG模型,本身不足以消除价值从行为模型中的作用。更广泛地说,要求进行价值的表示来自于标准RL框架提出的优化目标的假设,而不是所选择的具体算法来解决它。以往的研究大多在概念化或问题建模时默认了这些标准的RL假设,而争论的焦点是在用不同的方法优化它(即PG或VB)。我们认为,相反地,争论的焦点应该转向对底层建模假设的批判性评估。从实验的角度来看,这种评估尤为重要。事实上,当放松标准假设(如风险中立性、完全可观测性、马尔可夫环境、指数折现率)时,必须重考虑价值的概念,特别是在自然环境中。最后,我们使用价值的辩论作为案例研究,主张在认知科学中,构成“模型”的概念应该采用一种更细致、算法而非统计的角度。我们的分析表明,在评估模型的复杂性时,除了“参数化”的统计复杂性,还需要考虑计算复杂性等其他方面。