LLM2D

摘要

arXiv:2502.04428v1 类别: cross 摘要: 大型语言模型（LLMs）越来越多地部署在边缘设备上。为了提高在设备上的部署效率，通常会采用小语言模型（SLMs），因为它们具有高效的解码延迟和降低的能量消耗。然而，这些SLMs在处理复杂查询时往往会生成不准确的响应。一种有前途的解决方案是基于不确定性的小语言模型路由，当SLMs产生低置信度的响应时，将高风险查询转交给更强的LLMs处理。这遵循“如果你缺乏信心，寻求更强的支持”的原则，以增强可靠性。依赖更强大的LLMs虽然有效，但也增加了调用成本。因此，在效率和效果之间取得平衡的路由策略仍然是一个关键挑战。此外，如何有效地将路由策略推广到新数据集仍然未被充分探索。在本文中，我们在超过1500种设置中对SLMs到LLMs的不确定性驱动路由策略进行了全面调查和基准测试。我们的研究发现：首先，不同不确定性量化（UQ）方法中的不确定性-正确性对齐显著影响路由性能。其次，不确定性分布更多地依赖于特定的SLMs和所选择的UQ方法，而不是下游数据。基于此洞见，我们提出了一种校准数据构造指令管道，并开放了一个构建的保留集，以增强在新下游场景中的路由泛化能力。实验结果表明，校准数据有效地提高了路由性能，而无需任何新的数据。