LLM2D

摘要

arXiv:2502.13569v1 宣布类型: 新版摘要: 多任务强化学习利用单一策略完成各种任务，旨在发展出能够在不同场景中泛化的智能体。鉴于任务之间的共性，智能体的学习效率可以通过参数共享得以提升。现有方法通常使用路由网络为每个任务生成特定的路径，并重组一组模块为多种模型以同时完成多个任务。然而，由于任务之间的固有差异，根据任务难度分配资源至关重要，这受到模型结构的约束。为此，我们提出了一种基于遗传算法的模型进化框架（MEGA），该框架能够在训练过程中根据任务难度使模型进化。当当前模型对于某些任务不足时，框架将自动引入额外模块，增强模型的能力。此外，为了适应我们的模型进化框架，我们引入了一种基因型模块级模型，使用二进制序列作为基因型策略进行模型重组，并利用非梯度遗传算法优化这些基因型策略。与具有固定输出维度的路由网络不同，我们的方法允许基因型策略长度的动态调整，使其能够容纳具有不同模块数量的模型。我们在Meta-World基准上的各类机器人操作任务上进行了实验。我们的最新性能证明了MEGA框架的有效性。我们将发布我们的源代码。