LLM2D

摘要

arXiv:2504.11250v1 资源分配类型: 横向研究摘要：资源分配在最小化循环时间和提高业务流程效率方面发挥着关键作用。最近，深度强化学习（DRL）已经 emerged 作为一种强大的工具，用于优化业务流程中的资源分配策略。在 DRL 框架中，智能体通过与环境的交互来学习策略，仅通过指示其决策质量的奖励信号进行引导。然而，现有的算法不适合动态环境，如业务流程。此外，现有的 DRL 基方法依赖于近似目标的工程化奖励函数，但如果奖励和目标之间存在错位，则可能导致不希望的决策或次优策略。为了应对这些问题，我们提出了一种基于展开的 DRL 算法和一个可以直接优化目标的奖励函数。我们的算法通过评估不同行动后的执行轨迹来逐步改进策略。我们的奖励函数直接将最小化平均循环时间的目标函数分解。最大化我们的奖励函数可以确保在不需要大量奖励工程的情况下最小化目标函数。结果显示，我们的方法在所有六个评估的业务流程中一致地学习到最优策略，而最先进的算法只能在两个评估的业务流程中学习到最优策略。