LLM2D

摘要

arXiv:2412.07958v2 宣布类型：替换摘要：现代AI助手在自然语言理解和工具使用方面取得了显著进展，并且正在逐渐与网页界面进行交互。然而，当前高度依赖重复的LLM驱动HTML解析的方法在计算上非常昂贵且容易出错，特别是在处理动态网页界面和多步任务时。我们引入了一种PAFFA（预计算动作以提高快速代理的速度和准确性）方法，这种方法利用了一种新颖的推理期技术来使LLM在互联网上完成任务时更快更准确，而无需针对特定任务进行训练。PAFFA构建了一个“动作库”，利用基础LLM的参数化知识来预计算适用于多种任务的浏览器交互模式。通过在任务之间战略性地重用LLM的推理——无论是通过“Dist-Map”来进行任务无关的关键交互网页元素的识别，还是通过“Unravel”来进行首次接触时对新任务/站点的有状态探索——PAFFA将推理时间减少了87%，同时保持了稳健的性能（相较于基准，步骤准确率分别为0.57和0.50）。此外，“Unravel”能够根据探索更新其动作库的能力使其能够在未见过的网站上进行泛化和适应。总之，这项工作展示了LLM推理序列可以在不同提示之间泛化，提供了一种以次线性词元计数扩展互联网规模数据推理期技术的方法。