LLM2D

摘要

计算密集型解码过程——包括搜索、重新排序和自我批评——可以提高语言模型 (LM) 输出在代码生成、数值推理和对话等问题的质量。现有工作通常对 LM 的每个输入应用相同的解码过程。但并非所有输入都需要相同数量的计算来处理。我们能否自适应地分配解码计算，使用更多资源来回答那些答案更难计算的问题？我们提出了一种方法，该方法预测给定输入和计算预算的奖励分布，然后将额外的计算分配给预测中最有用的输入。我们在两种解码过程中应用了这种方法：第一，一种自适应的最佳 k 过程，它动态地选择要生成的样本数量作为重新排序器的输入；第二，一种路由过程，它使用昂贵但准确的解码过程或更便宜但能力较差的解码过程来动态地响应查询。在一套编程、数学和对话任务中，我们表明可以学习准确的计算分配过程，并且在不影响响应质量的情况下将计算量减少多达 50%，或者在固定计算预算下将质量提高多达 10%。