LLM2D

摘要

arXiv:2502.11937v1 交叉主题类型摘要：尽管基于强化学习（Reinforcement Learning，RL）的交通信号控制（Traffic Signal Control，TSC）方法得到了广泛研究，但在实际应用中仍然存在一些严重问题，例如高昂的学习成本和差的泛化能力。这是因为RL代理的“试错”训练风格使得它们对特定的交通环境极其依赖，这也需要较长的收敛时间。为了解决这些问题，我们提出了一种新的基于联邦模仿学习（Federated Imitation Learning，FIL）框架，名为FitLight，该框架使得RL代理可以无需额外的预训练成本，就可用于任何交通环境中。与现有依赖于预训练数据的模仿学习方法不同，FitLight支持实时模仿学习，并无缝过渡到强化学习。由于我们提出的知识共享机制和新型的混合压力基于智能体设计，RL代理可以在很少几轮 episode 中快速找到最优控制策略。此外，在资源受限的交通信号控制场景中，FitLight支持模型修剪和异构模型聚合，使得RL代理可以在仅有16 KB RAM和32 KB ROM的微控制器上工作。 extensive 实验表明，与现有先进方法相比，FitLight 不仅提供了更好的起点，而且在真实世界和合成数据集上都更快收敛到更好的最终解决方案，即使在极端的资源限制条件下也是如此。