摘要
推理时间技术正在成为提高大型语言模型 (LLM) 能力的有效工具。然而,对于开发将推理时间技术与一个或多个 LLM 相结合的系统的最佳实践仍然缺乏了解,面临的挑战包括:(1) 有效地分配推理计算预算,(2) 了解推理时间技术的不同组合之间的相互作用及其对下游性能的影响,以及 (3) 在模型选择、推理时间技术及其组合的巨大空间中进行有效搜索。为了应对这些挑战,我们引入了 Archon,这是一个用于设计推理时间架构的自动化框架。Archon 定义了一个可扩展的设计空间,涵盖了诸如生成集成、多重采样、排名、融合、批评、验证和单元测试等方法。然后,它将选择和组合 LLM 和推理时间技术的问题转换为超参数优化目标。为了优化此目标,我们引入了自动推理时间架构搜索 (ITAS) 算法。给定目标基准、推理计算预算和可用的 LLM,ITAS 输出优化的架构。我们在广泛的指令遵循和推理基准上评估了 Archon 架构,包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。我们表明,由 Archon 自动设计的推理时间架构在这些基准上优于 GPT-4o 和 Claude 3.5 Sonnet 等强大的模型,使用所有来源模型和开源模型分别实现了平均 15.1 和 11.2 个百分点的提升。我们将在 Github 上公开发布我们的代码和数据集:https://github.com/ScalingIntelligence/Archon。