LLM2D
在设备端基于不确定性进行LLM路由:从基准测试到泛化探索自信与否
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization
作者: Yu-Neng Chuang, Leisheng Yu, Guanchu Wang, Lizhe Zhang, Zirui Liu, Xuanting Cai, Yang Sui, Vladimir Braverman, Xia Hu
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04428v1

摘要

arXiv:2502.04428v1 类别: cross 摘要: 大型语言模型(LLMs)越来越多地部署在边缘设备上。为了提高在设备上的部署效率,通常会采用小语言模型(SLMs),因为它们具有高效的解码延迟和降低的能量消耗。然而,这些SLMs在处理复杂查询时往往会生成不准确的响应。一种有前途的解决方案是基于不确定性的小语言模型路由,当SLMs产生低置信度的响应时,将高风险查询转交给更强的LLMs处理。这遵循“如果你缺乏信心,寻求更强的支持”的原则,以增强可靠性。依赖更强大的LLMs虽然有效,但也增加了调用成本。因此,在效率和效果之间取得平衡的路由策略仍然是一个关键挑战。此外,如何有效地将路由策略推广到新数据集仍然未被充分探索。在本文中,我们在超过1500种设置中对SLMs到LLMs的不确定性驱动路由策略进行了全面调查和基准测试。我们的研究发现:首先,不同不确定性量化(UQ)方法中的不确定性-正确性对齐显著影响路由性能。其次,不确定性分布更多地依赖于特定的SLMs和所选择的UQ方法,而不是下游数据。基于此洞见,我们提出了一种校准数据构造指令管道,并开放了一个构建的保留集,以增强在新下游场景中的路由泛化能力。实验结果表明,校准数据有效地提高了路由性能,而无需任何新的数据。