LLM2D

摘要

arXiv:2504.03994v1 类型: cross 摘要：本文介绍了一种新的强化学习（RL）方法，用于在具有不同速度的处理器上调度混合关键性（MC）系统。在 [1] 的基础上，我们扩展了他们的工作，以解决非抢占式调度问题，该问题已知是 NP 难问题。通过将这个调度挑战建模为马尔可夫决策过程（MDP），我们开发了一个RL代理，能够为实时MC系统生成接近最优的调度方案。我们的基于RL的调度器优先处理高关键任务，同时保持系统的整体性能。通过广泛的实验，我们展示了我们方法的扩展性和有效性。基于RL的调度器显著提高了任务完成率，在10万个合成数据和实际数据实例下，总体任务完成率为80%，高关键任务完成率为85%。此外，在稳定条件下未出现性能退化的情况下，调度器实现了总体任务完成率为94%，高关键任务完成率为93%。这些结果突显了基于RL的调度器在实时和安全性关键应用中的潜力，提供了处理复杂和动态调度场景的显著改进。