LLM2D

摘要

arXiv:2410.17236v2 宣告类型: 替换-交叉摘要: 互联网代理已 emerged 作为基于用户指令自动化完成网页任务的有前途的方向，显著提升了用户体验。最近，互联网代理已从传统的代理发展成基于大规模语言模型 (LLMs) 的互联网代理。尽管他们取得了成功，但现有的基于 LLM 的互联网代理忽略了个性化数据（例如，用户资料和历史网页行为）在帮助理解用户的个性化指令并执行定制化行动中的重要性。为了克服这一局限，我们首先定义了 LLM 支持的个性化互联网代理任务，该任务将个性化数据和用户指令整合起来，个性化指令理解和行动执行。为了应对缺乏全面的评估基准的缺口，我们构建了一个个性化互联网代理基准（PersonalWAB），该基准包含用户指令、个性化用户数据、网页功能以及三个个性化网页任务的两种评估范式。此外，我们提出了个性化用户记忆增强对齐 (PUMA) 框架，以使 LLM 适应个性化互联网代理任务。PUMA 利用一个特定任务的检索策略的记忆库来筛选相关的历史网页行为。基于这些行为，PUMA 然后通过微调和直接偏好优化来对 LLM 进行个性化行动执行的对齐。广泛的实验验证了 PUMA 在 PersonalWAB 上优于现有互联网代理的效果。