LLM2D
根据个人偏好的学习规划
Learning to Plan with Personalized Preferences
作者: Manjie Xu, Xinyi Yang, Wei Liang, Chi Zhang, Yixin Zhu
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00858v1

摘要

arXiv:2502.00858v1 宣告类型: 新 摘要: 将AI代理有效集成到日常生活中,要求它们理解和适应个人的人类偏好,尤其是在协作角色中。尽管最近关于具身智能的研究取得了显著进展,但这些研究通常采用通用方法,忽略了规划中的个人偏好。我们通过开发既可以从少量示范中学习偏好,又可以基于这些偏好学习调整其规划策略的代理来解决这一局限性。我们的研究利用了这样一个观察:尽管偏好通过少量的示范隐含表达,但它们可以跨多种规划场景进行泛化。为了系统地验证这一假设,我们引入了基于偏好规划(PbP)基准,这是一种具身基准,涵盖了从原子动作到复杂序列的数百种不同的偏好。对当前最佳方法的评估显示,虽然基于符号的方法在可扩展性方面显示出潜力,但在学习生成和执行满足个性化偏好的计划方面仍存在重大挑战。我们还进一步证明,将学习到的偏好作为规划中的中间表示,可以显著提高代理构建个性化计划的能力。这些发现确立了偏好作为适应性规划中有价值的抽象层,为基于偏好的计划生成和执行研究开辟了新的方向。