摘要
arXiv:2505.05440v1 宣告类型: 新
摘要: 基于云的由(多模态)大规模语言模型((M)LLMs)驱动的移动代理提供了强大的推理能力,但存在高延迟和成本问题。虽然微调的(M)SLMs允许边缘部署,但它们往往失去了通用能力,并且难以处理复杂任务。为了解决这个问题,我们提出了一种名为EcoAgent的边缘-云协作多代理框架,用于移动自动化。EcoAgent的特点是一个基于云的规划代理与两个边缘代理之间的闭环协作:执行代理负责执行操作,观察代理负责验证结果。观察代理使用预理解模块将屏幕图像压缩为简洁的文本,减少了标记的使用量。在出现故障的情况下,规划代理通过反思模块检索屏幕历史并重新规划。在AndroidWorld上的实验展示了EcoAgent在保持高任务成功率的同时,显著减少了(多模态)大规模语言模型标记的使用量,从而实现高效且实用的移动自动化。