LLM2D

摘要

推理时技术正成为增强大型语言模型 (LLM) 能力的有效工具。然而，由于我们对单个推理时技术的效用及其相互作用的理解有限，开发结合这些技术的系统的最佳实践仍处于发展阶段。此外，由于设计空间巨大，高效且自动地搜索模型选择、推理时技术及其组合的空间是一个挑战。为了应对这些挑战，我们引入了 Archon，这是一个模块化框架，用于选择、组合和堆叠推理时技术层，以构建针对目标基准的优化 LLM 系统。我们不是依赖于一次性调用单个 LLM，而是利用一组多样化的 LLM 和推理时技术，创建超越其各个部分之和的 LLM 系统。Archon 定义了一个可扩展的设计空间，涵盖诸如生成集成、重复采样、排序、融合、批评、验证和单元测试等技术。它将构建 LLM 系统的问题转化为超参数优化目标。考虑到可用的 LLM、推理时技术和计算预算，Archon 利用超参数搜索技术来发现针对目标基准的优化架构。我们在各种指令遵循、推理和编码基准上评估了 Archon 架构，包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。Archon 架构在这些基准上优于前沿模型，例如 GPT-4o 和 Claude 3.5 Sonnet，通过使用所有可用的 LLM，平均准确率提高了 15.1 个百分点。我们将在 Github 上公开发布我们的代码和数据集：https://github.com/ScalingIntelligence/Archon。