摘要
arXiv:2505.09003v1 宣传类型: 横向
摘要: 对于强化学习代理来说,持续学习仍然是一个重大挑战,特别是在没有外部信号指示任务或环境变化的情况下保留和利用现有信息。在这项研究中,我们探讨了自动编码器在检测新任务以及将观察到的环境匹配到先前遇到的环境中方面的有效性。我们的方法将策略优化与熟悉自动编码器结合在一个端到端的持续学习系统中。该系统可以识别并学习新任务或环境,同时保留早期经历的知识,并且在重新遇到已知环境时可以选择性地检索相关知识。初步结果表明,在没有外部信号指示任务变化或重遇的情况下,可以实现成功的持续学习,这为该方法论前景带来了希望。