LLM2D

摘要

创造能够有效泛化到新任务的强化学习智能体是人工智能研究中的一个关键挑战。本文介绍了断裂簇选项（FraCOs），这是一种多层次分层强化学习方法，在困难的泛化任务上取得了最先进的性能。FraCOs识别智能体行为中的模式，并基于这些模式的预期未来效用形成选项，从而能够快速适应新任务。在表格设置中，FraCOs展示了有效的迁移能力，并且随着层次深度的增加，其性能也得到提升。我们在几个复杂的程序生成环境中，将FraCOs与最先进的深度强化学习算法进行了评估。我们的结果表明，FraCOs在分布内和分布外都取得了比竞争对手更高的性能。