LLM2D

摘要

推理时间技术正在成为提升大规模语言模型（LLM）能力的高效工具。然而，目前对于如何开发结合推理时间技术和一个或多个LLM的系统的最佳实践仍然理解有限，面临的挑战包括：（1）有效分配推理计算预算，（2）理解不同组合的推理时间技术之间的相互作用及其对下游性能的影响，以及（3）高效搜索模型选择、推理时间技术及其组合的庞大空间。为了解决这些挑战，我们引入了Archon，一个用于设计推理时间架构的自动化框架。Archon定义了一个可扩展的设计空间，涵盖了生成集成、多样采样、排序、融合、批判、验证和单元测试等方法。然后，它将选择和组合LLM和推理时间技术的问题转化为超参数优化目标。为了优化这一目标，我们引入了自动化推理时间架构搜索（ITAS）算法。给定目标基准、推理计算预算和可用的LLM，ITAS输出优化的架构。我们在包括MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH和CodeContests在内的广泛指令跟随和推理基准上评估了Archon架构。我们展示了Archon自动设计的推理时间架构在这些基准上优于强大的模型，如GPT-4o和Claude 3.5 Sonnet，在所有源模型和开源模型上分别实现了平均14.1和10.3个百分点的提升。我们在Github上公开了我们的代码和数据集：https://github.com/ScalingIntelligence/Archon。