摘要
arXiv:2502.04392v1 宣告类型: cross
摘要:互联网内容的迅速扩张使设备端的人工智能助手成为了帮助用户管理日益复杂的在线任务的不可或缺工具。大型语言模型(LLMs)中新兴的推理能力为新一代设备端AI代理提供了有希望的道路。然而,在资源有限的本地设备上部署全规模的语言模型(LLMs)是一项挑战。在本文中,我们提出了一种名为Division-of-Thoughts(DoT)的协作推理框架,该框架充分利用了本地部署的较小规模语言模型(SLMs)与云基LMs之间的协同效应。DoT利用任务分解器(Task Decomposer)激发语言模型中固有的规划能力,将用户查询分解为更小的子任务,从而使混合语言模型能够充分利用各自的优点。此外,DoT采用任务调度器(Task Scheduler)分析子任务之间的成对依赖关系,创建依赖图,促进子任务的并行推理和关键步骤的识别。为了根据子任务的难度分配适当的模型,DoT利用了一种插拔式适配器(Plug-and-Play Adapter),这是一种附加到SLM的任务头,不改变SLM的参数。为了增强适配器的任务分配能力,我们提出了一种依赖于任务执行反馈的自我强化训练方法。在各种基准上的广泛实验表明,我们的DoT显著降低了LLM成本,同时保持了竞争性的推理准确性。具体来说,DoT将平均推理时间和API成本减少了66.12%和83.57%,同时达到了与最佳基线方法相当的推理准确性。