LLM2D
Home
Arxiv
返回列表
返回上限策略:样本高效CVaR策略梯度优化
Return Capping: Sample-Efficient CVaR Policy Gradient Optimisation
作者:
Harry Mead, Clarissa Costen, Bruno Lacerda, Nick Hawes
发布日期:
4/30/2025
arXiv ID:
oai:arXiv.org:2504.20887v1
摘要
arXiv:2504.20887v1 交叉公告类型 摘要: 当使用策略梯度(PG)优化条件价值-at-风险(CVaR)时,当前的方法依赖于丢弃大量轨迹,导致样本效率较差。我们提出了一种通过限定用于训练的轨迹的总回报来重新表述CVaR优化问题的方法,而不是简单地丢弃这些轨迹,并表明如果设定合适的上限,则这种重新表述等同于原始问题。我们通过在多个环境中进行的实验证明,这种问题重新表述的结果相较于基线方法能够一致地提高性能。
查看原文
下载 PDF