LLM2D

摘要

本文提出了一种基于状态的势博弈中的新型迁移学习方法（TL-SbPGs），用于增强制造系统的分布式自优化。该方法侧重于实际相关的工业环境，其中在行为相似的玩家之间共享和转移获得的知识可以改善大型系统的自学习机制。通过 TL-SbPGs，其他玩家可以重复利用获得的知识来优化其策略，从而提高玩家的学习成果并加速学习过程。为了实现这一目标，我们开发了玩家的迁移学习概念和相似性标准，这提供了两种不同的设置：（a）玩家之间的预定义相似性，以及（b）在训练期间动态推断的玩家之间的相似性。我们正式证明了 SbPG 框架在迁移学习中的适用性。此外，我们还引入了一种有效的方法来确定训练阶段中迁移学习过程的最佳时机和权重。通过在实验室规模测试台上的实验，我们证明 TL-SbPGs 显着提高了生产效率，同时降低了生产计划的功耗，同时还优于原生 SbPGs。