摘要
arXiv:2505.05440v2 通知类型: 替换
摘要: 由(多模态)大规模语言模型((M)LLMs)驱动的基于云的移动代理提供了强大的推理能力,但存在高延迟和成本问题。虽然微调的(M)SLMs允许边缘部署,但它们通常会失去通用能力,并且在处理复杂任务时会遇到困难。为了解决这一问题,我们提出了一种名为\textbf{EcoAgent}的边缘-云协作多代理框架,用于移动自动化。EcoAgent 包含一个闭环合作,其中包含一个基于云的规划代理和两个边缘代理:执行代理用于执行操作,观察代理用于验证结果。观察代理使用预理解模块将屏幕图像压缩成简洁的文本,从而减少标记的数量和通信开销。如果发生故障,规划代理通过记忆模块检索屏幕历史,并通过反思模块重新规划。在AndroidWorld上的实验显示,EcoAgent 在任务成功率方面与基于云的移动代理相当,同时显著减少了LLM标记的使用量,使得移动自动化更加高效和实用。