摘要
将大型语言模型部署到生产环境中需要同时关注效率和风险控制。先前的工作已经证明了在保持类似准确率的同时降低成本的可能性,但忽略了风险控制。相比之下,本文提出了具有多级回避功能的层次化链 (HCMA),该方法利用模型固有的不确定性来沿着 LLM 智能层次结构委派查询,从而实现仅基于黑盒 API 调用的无训练模型切换。我们的框架在效率和风险之间呈现出新颖的权衡。例如,在 MMLU 上部署 HCMA 时,当模型允许对 20% 的查询进行回避时,Llama3 405B 的错误率降低了 30%。为了校准 HCMA 以获得最佳性能,我们的方法使用数据高效的逻辑回归(基于简单的非线性特征变换),只需要 50 或 100 个标记示例即可实现出色的校准误差 (ECE),与朴素 Platt 缩放相比,ECE 降低了 50%。在自由格式生成任务中,我们发现思维链对于选择性预测无效,而零样本提示在高回避率下将 TruthfulQA 的错误率降至 0%。随着 LLM 在具有不同功能(例如移动、笔记本电脑和云)的计算环境中越来越广泛地部署,我们的框架为在实施严格的风险控制的同时维护部署效率铺平了道路。