摘要
arXiv:2504.19933v1 宣告类型: 新
摘要: 动态任务分配问题(DTAP)涉及在实时匹配资源以最小化某些目标(如资源成本或任务周期时间)。在本文中,我们考虑了一种DTAP变体,其中每个任务是一个由随机活动序列组成的情形。在这种DTAP中,需要做出的决策是如何分配员工来处理活动,以便尽可能快速地响应请求。近年来,深度强化学习(DRL)已成为解决这种DTAP变体的一种有前途的工具,但大多数研究仅限于解决小型合成问题,忽视了现实世界用例带来的挑战。为弥合这一差距,本文提出了一种基于DRL的决策支持系统(DSS)来解决大规模的DTAP。为此,我们引入了一个带有两个新颖元素的DRL代理:一种可以有效表示任何DTAP的图结构作为观察和操作,以及一个可证明等同于最小化任务平均周期时间目标的奖励函数。这两项创新的结合使代理能够学会有效的且具有泛化能力的任务分配策略。提出的DSS在五个参数来自实际日志并通过过程挖掘提取的DTAP实例上进行了评估。实验评估表明,提出的DRL代理在所有DTAP实例中均能匹配或超越最佳基线,并在不同时间跨度和不同实例上泛化。