摘要
arXiv:2502.09054v1 传达类型: 新
摘要: LLM 递归基于这样一个想法:使用最大的和最昂贵的LLM 来处理所有查询是低效的。相反,递归部署小的LLM来回答大多数查询,将大型和昂贵的LLM的使用限制在最困难的查询上。这种方法可以在不影响性能的情况下显著降低成本。然而,在金融或医学等风险敏感领域,避免模型错误被附加赋值。认识到最昂贵的模型也可能出错,这些领域的应用从允许LLM系统在做出错误风险较高的查询时完全避免回答中获益。然而,赋予递归结构避免回答的能力对LLM递归结构提出了一个即时的设计问题:避免回答是否仅应允许在最终模型中,还是也应在早期模型中?由于小型和大型模型的错误模式相关,后者策略可能通过让廉价模型预判昂贵模型的避免回答决策,从而进一步减少推理成本,从而避免运行昂贵的模型。我们研究了“早期避免回答”在LLM递归中的好处,并发现它在六个基准测试(GSM8K、MedMCQA、MMLU、TriviaQA、TruthfulQA和XSum)中平均将测试损失降低了2.2%。这些收益源于避免回答的更有效利用,这以整体避免回答率平均增加4.1%为代价,换取了成本减少13.0%以及错误率减少5.0%。我们的发现表明,可以通过利用不同语言模型错误模式之间的相关性来驱动具有避免回答功能的LLM系统性能提升。