摘要
arXiv:2411.02998v3 公告类型: 替换
摘要:在AI研究中,创建能够有效泛化到新任务的强化学习代理是一个关键挑战。本文介绍了一种名为Fracture Cluster Options (FraCOs)的多级层次强化学习方法,该方法在困难的泛化任务上取得了最先进的性能。FraCOs能够识别代理行为中的模式,并根据这些模式预期的未来 usefulness 形成选项,从而实现对新任务的快速适应。在表征设置中,随着层次结构深度的增长,FraCOs展示了有效的迁移并提高了性能。我们在几个复杂的程序生成环境中将FraCOs与最先进的深度强化学习算法进行了评估。我们的结果表明,FraCOs在分布内和分布外性能上都优于竞争对手。