摘要
arXiv:2410.17236v2 宣告类型: 替换-交叉
摘要: 互联网代理已 emerged 作为基于用户指令自动化完成网页任务的有前途的方向,显著提升了用户体验。最近,互联网代理已从传统的代理发展成基于大规模语言模型 (LLMs) 的互联网代理。尽管他们取得了成功,但现有的基于 LLM 的互联网代理忽略了个性化数据(例如,用户资料和历史网页行为)在帮助理解用户的个性化指令并执行定制化行动中的重要性。为了克服这一局限,我们首先定义了 LLM 支持的个性化互联网代理任务,该任务将个性化数据和用户指令整合起来,个性化指令理解和行动执行。为了应对缺乏全面的评估基准的缺口,我们构建了一个个性化互联网代理基准(PersonalWAB),该基准包含用户指令、个性化用户数据、网页功能以及三个个性化网页任务的两种评估范式。此外,我们提出了个性化用户记忆增强对齐 (PUMA) 框架,以使 LLM 适应个性化互联网代理任务。PUMA 利用一个特定任务的检索策略的记忆库来筛选相关的历史网页行为。基于这些行为,PUMA 然后通过微调和直接偏好优化来对 LLM 进行个性化行动执行的对齐。广泛的实验验证了 PUMA 在 PersonalWAB 上优于现有互联网代理的效果。