LLM2D

摘要

arXiv:2502.00858v1 宣告类型: 新摘要: 将AI代理有效集成到日常生活中，要求它们理解和适应个人的人类偏好，尤其是在协作角色中。尽管最近关于具身智能的研究取得了显著进展，但这些研究通常采用通用方法，忽略了规划中的个人偏好。我们通过开发既可以从少量示范中学习偏好，又可以基于这些偏好学习调整其规划策略的代理来解决这一局限性。我们的研究利用了这样一个观察：尽管偏好通过少量的示范隐含表达，但它们可以跨多种规划场景进行泛化。为了系统地验证这一假设，我们引入了基于偏好规划（PbP）基准，这是一种具身基准，涵盖了从原子动作到复杂序列的数百种不同的偏好。对当前最佳方法的评估显示，虽然基于符号的方法在可扩展性方面显示出潜力，但在学习生成和执行满足个性化偏好的计划方面仍存在重大挑战。我们还进一步证明，将学习到的偏好作为规划中的中间表示，可以显著提高代理构建个性化计划的能力。这些发现确立了偏好作为适应性规划中有价值的抽象层，为基于偏好的计划生成和执行研究开辟了新的方向。