LLM2D

摘要

大型语言模型（LLM）驱动的网页代理已成为自动化网页任务完成的一种很有前景的方向，显著提升了用户体验。然而，现有的基于LLM的网页代理忽略了个性化数据（例如，用户画像和历史网页行为）在理解用户个性化指令和执行定制化操作中的重要性。为了克服这一局限性，我们首先制定了LLM赋能的个性化网页代理任务，该任务整合个性化数据和用户指令，以实现指令理解和动作执行的个性化。针对缺乏全面评估基准的问题，我们构建了一个个性化网页代理基准（PersonalWAB），其中包含用户指令、个性化用户数据、网页功能以及跨三个个性化网页任务的两种评估范式。此外，我们提出了一种基于个性化用户记忆增强的对齐框架（PUMA），以使LLM适应个性化网页代理任务。PUMA利用具有特定任务检索策略的记忆库来过滤相关的历史网页行为。基于这些行为，PUMA通过微调和直接偏好优化来调整LLM以实现个性化动作执行。大量的实验结果验证了PUMA在PersonalWAB上优于现有网页代理的性能。