LLM2D

摘要

arXiv:2505.04822v1 宣告类型: 新摘要: 动作值在流行的行为强化学习(Reinforcement Learning, RL)模型中扮演着中心角色。然而，动作值是否明确表示的观点一直存在广泛的争论。因此，批评者反复建议应优先选择策略梯度(Policy Gradient, PG)模型而非基于值(Value-based, VB)模型，作为解决这一困境的一种可能方案。在这里，我们认为这种解决方案是令人满意的。这是因为PG方法实际上并不是“价值无关”的——尽管它们在执行时并不依赖明确表示的价值（刺激-响应映射），但在学习时却需要价值的表示。因此，切换到PG模型，本身不足以消除价值从行为模型中的作用。更广泛地说，要求进行价值的表示来自于标准RL框架提出的优化目标的假设，而不是所选择的具体算法来解决它。以往的研究大多在概念化或问题建模时默认了这些标准的RL假设，而争论的焦点是在用不同的方法优化它（即PG或VB）。我们认为，相反地，争论的焦点应该转向对底层建模假设的批判性评估。从实验的角度来看，这种评估尤为重要。事实上，当放松标准假设（如风险中立性、完全可观测性、马尔可夫环境、指数折现率）时，必须重考虑价值的概念，特别是在自然环境中。最后，我们使用价值的辩论作为案例研究，主张在认知科学中，构成“模型”的概念应该采用一种更细致、算法而非统计的角度。我们的分析表明，在评估模型的复杂性时，除了“参数化”的统计复杂性，还需要考虑计算复杂性等其他方面。