LLM2D

摘要

arXiv:2504.03994v2 通知类型: 替换-交叉摘要: 本文介绍了一种新的强化学习(RL)方法，用于在具有不同速度的处理器上调度混合关键性(MC)系统。在[1]的工作基础上，我们将其扩展以解决非抢占调度问题，该问题已被证明是NP难问题。通过将此调度挑战建模为马尔可夫决策过程(MDP)，我们开发了一个RL代理，能够为实时MC系统生成接近最优的调度。我们的基于RL的调度器优先处理高关键性任务，同时保持系统总体性能。通过大量的实验，我们展示了该方法的可扩展性和有效性。基于RL的调度器显著提高了任务完成率，在100,000个合成数据实例和实际数据样本下，在不同系统条件下，总任务完成率为80%，高关键性任务完成率为85%。此外，在没有性能退化的稳定条件下，调度器实现了总体任务完成率94%，高关键性任务完成率93%。这些结果突显了基于RL的调度器在实时和安全关键应用中的潜力，提供了处理复杂和动态调度场景的重要改进。