摘要
arXiv:2411.06559v2 宣告类型: 重写
摘要:基于大型语言模型(LLMs)的语言代理在自动化网络任务方面展现出了巨大的潜力。近期研究表明,将先进的规划算法,例如树搜索,整合到网络代理中,相比于反应性规划更有优势。然而,与模拟的沙盒环境不同,现实生活中的环境,如网络,充满了不可撤销的操作。这削弱了回溯的可行性,回溯是(树)搜索的核心。过度依赖测试时的搜索也会损害效率。我们提倡为网络代理采用基于模型的规划方法,这种方法利用世界模型模拟和审慎地考虑每个候选行动的结果,然后才做出决定。我们系统地探索了这一范式,通过(1)提出一个基于模型的规划框架 WebDreamer,使用 LLM 作为世界模型和价值函数;(2)利用可扩展的数据合成管道训练专门的世界模型。实验结果表明,WebDreamer 在反应性基线上的性能显著提升。与沙盒环境(VisualWebArena)中的树搜索相比,它在效率上更胜一筹,同时也能在实际网站(Online-Mind2Web 和 Mind2Web-Live)上有效工作。此外,我们训练的世界模型 Dreamer-7B 在表现上与 GPT-4o 相当,这凸显了专门化世界模型在复杂网络环境中进行高效和有效规划的潜力。