LLM2D

摘要

arXiv:2504.20887v1 交叉公告类型摘要: 当使用策略梯度（PG）优化条件价值-at-风险（CVaR）时，当前的方法依赖于丢弃大量轨迹，导致样本效率较差。我们提出了一种通过限定用于训练的轨迹的总回报来重新表述CVaR优化问题的方法，而不是简单地丢弃这些轨迹，并表明如果设定合适的上限，则这种重新表述等同于原始问题。我们通过在多个环境中进行的实验证明，这种问题重新表述的结果相较于基线方法能够一致地提高性能。