摘要
大型语言模型 (LLM) 现在可以作为自主代理与数字环境交互并完成特定目标(例如,安排在线会议)。然而,准确性仍然远未令人满意,部分原因是缺乏针对数字任务的大规模直接演示。从人类那里获取监督数据成本高昂,而通过探索或强化学习自动收集数据则依赖于复杂的环境和内容设置,导致数据集缺乏对各种场景的全面覆盖。另一方面,存在大量可能间接帮助完成任务的知识,例如为人类消费而创建的在线教程。在这项工作中,我们提出了 Synatra,这是一种有效地将这种间接知识大规模转化为直接监督的方法。我们定义了不同类型的间接知识,并仔细研究了获取它的可用来源、编码直接演示结构的方法,以及最终将间接知识转换为直接演示的方法。我们使用 10 万个这种合成生成的演示来微调 7B CodeLlama,并证明生成的代理在三个基于 Web 的任务基准测试 Mind2Web、MiniWoB++ 和 WebArena 上超越了所有大小相当的模型,并且在 WebArena 和 Mind2Web 上也超越了 GPT-3.5。此外,虽然合成演示的成本仅为人工演示的 3%(每个 0.031 美元),但我们表明,合成演示可能比从有限领域收集的相同数量的人工演示更有效。