LLM2D

摘要

arXiv:2405.15143v4 通告类型: replace-cross 摘要：Go-Explore 是一系列设计用于解决存档已发现状态并反复返回以探索最有潜力的状态的问题的强大算法。这种方法在包括Atari游戏和机器人控制等众多挑战性问题中达到了超人般的性能，但需要手动设计启发式方法来引导探索（即，确定哪些状态要保存并从中探索，以及下一阶段要考虑的哪些动作），这在一般情况下耗时且不可行。为了解决这一问题，我们提出了Intelligent Go-Explore（IGE），该方法大大扩展了原始Go-Explore的范围，将其人工设计的启发式方法替换为由巨型预训练基础模型（FMs）捕获的智能和内化的有趣性概念。这赋予了IGE一种人性化的能力，能够本能地识别新状态的有趣性和潜力（例如，发现新的对象、位置或行为），即使在启发式难以定义的复杂环境中也是如此。此外，IGE 提供了识别和利用偶然发现的机会——在探索过程中遇到的有价值但非人为用户预期使它们变得有趣的状态。我们在多种需要搜索和探索的语言和视觉任务上评估了该算法。在这些任务中，IGE 显著超越了经典的强化学习和图搜索基准，并且在之前的FM代理如Reflexion完全失败的地方也取得了成功。总体而言，Intelligent Go-Explore 结合了FMs的强大优势和强大的Go-Explore算法的优势，开启了创建更一般且富有探索能力代理的新的研究领域。