摘要
arXiv:2412.07472v3 声明类型: 替换
摘要: 基于大型视觉语言模型(LVLM)的多模态感知和推理能力的 embodiment 代理的最近进展,在自主与现实或网络世界交互方面表现出色,帮助人们在复杂环境中做出智能决策。然而,当前的工作通常通过金标准行动轨迹或理想的任务导向解决方案来优化,以达到最终目标。这种范式考虑了有限的用户导向因素,这可能是它们在广泛个人助理应用中性能下降的原因。为了解决这个问题,我们提出了 Chain-of-User-Thought(COUT),这是一种新颖的 embodiment 推理范式,从基本的动作思考到明确和隐含的个性化偏好思考,将个性化因素融入自主代理的学习中。为了解决 COUT,我们引入了 SmartAgent,这是一种感知网络环境并推理个性化要求的代理框架,包括:1) 与 GUI 交互以访问项目池,2) 生成由先前动作暗示的用户的明确要求,3) 推荐物品以满足用户的隐含要求。为了展示 SmartAgent 的能力,我们还创建了一个全新的数据集 SmartSpot,提供了全面的、涉及个性化动作的环境。据我们所知,我们的工作是首次对 COUT 过程进行建模,作为迈向 embodiment 个性化代理学习的初步尝试。我们在 SmartSpot 上进行的广泛实验阐明了 SmartAgent 在一系列 embodiment 和个性化子任务中的功能。一旦论文被通知,我们将通过https://github.com/tsinghua-fib-lab/SmartAgent 释放代码和数据。