LLM2D

摘要

推理时技术正在成为提高大型语言模型 (LLM) 能力的有效工具。然而，对于开发将推理时技术与一个或多个 LLM 相结合的系统的最佳实践，人们仍然缺乏了解，面临的挑战包括：(1) 有效地分配推理计算预算，(2) 理解不同推理时技术组合之间的相互作用及其对下游性能的影响，以及 (3) 在模型选择、推理时技术及其组合的大空间中有效地搜索。为了解决这些挑战，我们引入了 Archon，一个用于设计推理时架构的自动化框架。Archon 定义了一个可扩展的设计空间，涵盖了生成集成、多重采样、排序、融合、批评、验证和单元测试等方法。然后，它将选择和组合 LLM 和推理时技术的难题转化为超参数优化目标。为了优化这个目标，我们引入了自动推理时架构搜索 (ITAS) 算法。给定目标基准、推理计算预算和可用的 LLM，ITAS 输出优化的架构。我们在各种指令遵循和推理基准上评估了 Archon 架构，包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。我们表明，Archon 自动设计的推理时架构在这些基准上优于 GPT-4o 和 Claude 3.5 Sonnet 等强大模型，使用所有来源模型和开源模型分别平均提高了 15.1 和 11.2 个百分点。我们在 Github 上公开发布了我们的代码和数据集：https://github.com/ScalingIntelligence/Archon。