LLM2D

摘要

arXiv:2502.06146v1 类型: cross 摘要：高效探索对于在复杂且长期的任务环境中学习关系模型至关重要。随机探索方法往往收集冗余或无关的数据，限制了它们学习环境准确的关系模型的能力。目标-公理生成 (GLIB) 通过设置和计划新目标来改进随机探索，但其依赖于随机动作和随机新目标选择限制了其在更大的领域中的可扩展性。在这项工作中，我们确定了关系领域高效探索的基本原则：（1）通过涵盖计划所需的不同提升效应的演示进行操作初始化，以及（2）通过选择信息性的目标-动作对并执行计划来收集最丰富的过渡信息以细化预条件。为了演示这些原则，我们引入了 Baking-Large，这是一个具有广泛状态-动作空间和长期任务的挑战性领域。我们使用 oracle 驱动的演示进行操作初始化，并使用目标-预条件导向的 oracle 指导以高效收集关键的过渡信息。实验表明，oracle 演示和目标-预条件导向的 oracle 指导显著提高了样本效率和泛化能力，为未来的方法提供了机会，使其能够使用这些原则有效地学习复杂环境中的准确关系模型。