摘要
资源分配任务是一类问题,其中有限的资源必须在每个时间步分配给一组实体。这类任务的典型例子包括投资组合优化或跨服务器分配计算工作负载。资源分配任务通常受线性约束的约束,这些约束描述了必须始终严格满足的实际需求。例如,在投资组合优化中,投资者可能被要求在任何投资期间将不超过 30% 的资金分配到特定行业。此类约束以复杂的方式限制了允许分配的动作空间,这使得学习避免违反约束的策略变得困难。在本文中,我们提出了一种基于自回归过程的新方法,用于约束资源分配任务,该方法按顺序为每个实体采样分配。此外,我们引入了一种新颖的去偏方法来抵消顺序采样引起的初始偏差。我们在三个不同的约束资源分配任务上展示了我们方法优于各种约束强化学习 (CRL) 方法的性能:投资组合优化、计算工作负载分配和一个合成分配基准。我们的代码可在以下地址获取:https://github.com/niklasdbs/paspo。