LLM2D

摘要

arXiv:2405.14749v2 宣告类型: 替换-交叉摘要：风险敏感强化学习（RL）对于在高风险应用场景中保持可靠性能至关重要。尽管传统的RL方法旨在学习随机累积成本的点估计，分布性RL（DRL）寻求估计其整个分布，从而为处理不同的风险度量提供了一个统一框架。然而，为风险敏感的DRL开发策略梯度方法本质上更加复杂，因为它涉及找到概率测度的梯度。本文介绍了一种新的风险敏感DRL的策略梯度方法，适用于广义一致风险度量，其中我们为任何分布提供了概率测度梯度的解析形式。为了实际应用，我们设计了一个分类分布策略梯度算法（CDPG），通过一些固定点支持的分类家族来近似任何分布。我们进一步提供了在渐近政策评估和梯度估计不准确的情况下有限支撑最优性保证和有限迭代收敛保证。通过在随机悬崖行走和CartPole环境中的实验，我们说明了在DRL中考虑风险敏感设置的好处。