LLM2D

摘要

广泛使用的预期效用理论在心理学和行为经济学文献中被证明与人类偏好不一致。累积前景理论（CPT）的出现填补了这一空白，并为人类决策提供了更好的模型，该模型得到了经验证据的支持。它可以表达各种各样的风险、收益和损失的态度和认知。几年前，CPT 与强化学习 (RL) 相结合，形成了一个 CPT 策略优化问题，其中智能体的目标是寻找一个策略，该策略生成与他们的偏好一致的长期回报。在这项工作中，我们重新审视了这个策略优化问题，并根据所考虑的效用函数，提供了关于最优策略及其性质的新见解。我们进一步推导出 CPT 策略优化目标的新策略梯度定理，推广了标准 RL 中的相应结果。这一结果使我们能够设计一种无模型策略梯度算法来解决 CPT-RL 问题。我们在受交通控制和电力管理应用启发的简单示例中说明了我们算法的性能。我们还证明了，与解决相同问题的现有零阶算法相比，我们的策略梯度算法更能扩展到更大的状态空间。