摘要
具有卓越响应质量的 LLM,尤其是更大或闭源模型,往往伴随着更高的推理成本,使其部署效率低下且成本高昂。与此同时,从头开始开发基础 LLM 正在变得越来越资源密集且不切实际,难以应用于许多场景。为了解决质量和成本平衡的挑战,我们引入了 Routoo,这是一种旨在根据性能、成本和效率优化特定提示的 LLM 选择的架构。Routoo 提供对推理成本和质量之间权衡的可控性,能够在给定的质量要求下显著降低推理成本。Routoo 包含两个关键组件:性能预测器和成本感知选择器。性能预测器是一个轻量级的 LLM,能够在不执行的情况下估计给定提示下各种底层 LLM 的预期性能。然后,成本感知选择器模块根据这些预测和成本和延迟等约束选择最合适的模型,显著降低相同质量的推理成本。我们使用 MMLU 基准在 57 个领域中对 Routoo 进行了评估,并使用了开源模型。我们的结果表明,Routoo 的性能与 Mixtral 8x7b 模型相匹配,同时将推理成本降低了三分之一。此外,通过允许增加成本,Routoo 在相同成本下超越了 Mixtral 的准确率 5% 以上,达到 75.9% 的准确率。当将 GPT4 集成到我们的模型池中时,Routoo 在成本减半的情况下几乎达到了 GPT4 的性能,并在成本降低 25% 的情况下超越了 GPT4。这些结果突出了 Routoo 在不影响质量的情况下显著降低推理成本的潜力,甚至通过利用多个 LLM 的集体能力来建立新的最先进结果。