LLM2D

摘要

arXiv:2411.02998v3 公告类型: 替换摘要：在AI研究中，创建能够有效泛化到新任务的强化学习代理是一个关键挑战。本文介绍了一种名为Fracture Cluster Options (FraCOs)的多级层次强化学习方法，该方法在困难的泛化任务上取得了最先进的性能。FraCOs能够识别代理行为中的模式，并根据这些模式预期的未来 usefulness 形成选项，从而实现对新任务的快速适应。在表征设置中，随着层次结构深度的增长，FraCOs展示了有效的迁移并提高了性能。我们在几个复杂的程序生成环境中将FraCOs与最先进的深度强化学习算法进行了评估。我们的结果表明，FraCOs在分布内和分布外性能上都优于竞争对手。