LLM2D

摘要

arXiv:2502.06146v2 宣布类型: 替换交叉摘要：在具有复杂且长期任务的大规模环境中学习关系模型时，高效的探索至关重要。随机探索方法常常收集冗余或无关的数据，限制了它们学习环境准确关系模型的能力。目标字面级咿呀学语（GLIB）通过设置和规划新的目标来改进随机探索，但它依赖于随机动作和随机新目标的选择，限制了其在更大领域的扩展性。在本文中，我们确定了关系域中高效探索的基本原则：(1) 通过涵盖规划所需的区别提升效应的演示来进行操作器初始化；(2) 通过选择有信息性的目标-动作对并执行其计划来收集最有信息性的过渡来细化先决条件。为了证明这些原则，我们引入了Baking-Large，这是一个具有广泛状态-动作空间和长期任务的具有挑战性的领域。我们使用由先验知识驱动的演示来进行操作器初始化，并使用先决条件目标导向的指导来高效地收集关键的过渡。实验结果表明，先验知识演示和先决条件目标导向的先验指导显著提高了样本效率和泛化能力，为未来的方法提供了使用这些原则在复杂环境中高效学习精确关系模型的道路。