LLM2D

摘要

arXiv:2504.13541v1 宣传类型: cross 摘要：能够在多个任务上训练智能自主代理（如移动机器人）的能力对于适应动态现实环境至关重要。然而，最新的强化学习（RL）方法仅在单任务设置中表现出色，并且仍然难以在多个任务之间进行泛化，原因在于任务间干扰。此外，现实环境还需要代理具有数据流处理能力。为此，最前沿的工作采用脉冲神经网络（SNN）通过利用数据流中的时间信息来提高多任务学习能力，同时支持低功率/能量的事件驱动操作。然而，它在其训练过程中依赖于固定的任务切换间隔，这限制了多任务学习的可扩展性和有效性。为了解决这些问题，我们提出了一种新颖的自适应任务切换方法SwitchMT，用于基于RL的自主代理多任务学习。具体来说，SwitchMT采用了以下关键思路：（1）一个具有活动树突和对冲结构的深度脉冲Q网络，利用特定任务的上下文信号创建专门的子网络；以及（2）一个利用奖励和网络参数内部动态的自适应任务切换策略。实验结果表明，SwitchMT在多任务学习中取得了优于最新方法的性能。它在多个Atari游戏中表现出竞争性得分（即：Pong：-8.8，Breakout：5.6，Enduro：355.2），展示了其更好的泛化学习能力。这些结果强调了SwitchMT方法的有效性，该方法不仅解决了任务干扰问题，还通过自适应任务切换实现了多任务学习自动化，从而为具有可扩展多任务学习能力的更高效通用代理开辟了道路。