LLM2D

摘要

我们证明了领域通用自动评估器可以显著提高网页导航和设备控制代理的性能。我们实验了多种评估模型，在推理成本、设计模块化和准确性之间进行了权衡。我们在几个流行的数字代理基准测试中验证了这些模型的性能，发现与预言评估指标的吻合度在 74.4% 到 92.9% 之间。最后，我们使用这些评估器通过微调和推理时间引导来提高现有代理的性能。在没有任何额外监督的情况下，我们在流行的 WebArena 基准测试中将最先进的性能提高了 29%，并在设备控制设置中取得了约 75% 的相对改进。