摘要
arXiv:2502.09054v2 通知类型: 重新投稿
摘要: LLM级联将小型LLM用于回答大多数查询,限制昂贵的大规模LLM仅用于难以回答的查询。这种方法可以在不牺牲性能的情况下显著降低成本。然而,在金融或医学等风险敏感领域,额外强调避免模型错误。由于即使是最昂贵的模型也会出现错误,这些领域中的应用程序可以从允许LLM系统完全避免回答难以回答的查询中受益。引入避免回答的决策提出了一个设计问题:LLM级联中仅应在最终模型中允许避免回答,还是也应该在早期模型中允许?由于小型和大型模型的错误模式相关,允许早期模型避免回答可能会通过预见到昂贵且缓慢的模型的避免回答决策来降低推理成本和延迟,从而避免运行这些模型。我们研究了“早期避免回答”在LLM级联中的好处,并发现它在六项基准测试(GSM8K、MedMCQA、MMLU、TriviaQA、TruthfulQA和XSum)中平均降低了2.2%的整体测试损失。这些收益来自于避免回答的更有效利用,通过平均增加整体避免回答率4.1%,降低13.0%的成本和5.0%的错误率来实现。我们的发现证明了利用不同语言模型错误模式之间的相关性来驱动具有避免回答的LLM系统性能改进的可能性。