摘要
arXiv:2502.13569v1 宣布类型: 新版
摘要: 多任务强化学习利用单一策略完成各种任务,旨在发展出能够在不同场景中泛化的智能体。鉴于任务之间的共性,智能体的学习效率可以通过参数共享得以提升。现有方法通常使用路由网络为每个任务生成特定的路径,并重组一组模块为多种模型以同时完成多个任务。然而,由于任务之间的固有差异,根据任务难度分配资源至关重要,这受到模型结构的约束。为此,我们提出了一种基于遗传算法的模型进化框架(MEGA),该框架能够在训练过程中根据任务难度使模型进化。当当前模型对于某些任务不足时,框架将自动引入额外模块,增强模型的能力。此外,为了适应我们的模型进化框架,我们引入了一种基因型模块级模型,使用二进制序列作为基因型策略进行模型重组,并利用非梯度遗传算法优化这些基因型策略。与具有固定输出维度的路由网络不同,我们的方法允许基因型策略长度的动态调整,使其能够容纳具有不同模块数量的模型。我们在Meta-World基准上的各类机器人操作任务上进行了实验。我们的最新性能证明了MEGA框架的有效性。我们将发布我们的源代码。