LLM2D
阿基米德:面向推理时间技术的架构搜索框架
Archon: An Architecture Search Framework for Inference-Time Techniques
作者: Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher R\'e, Azalia Mirhoseini
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2409.15254v5

摘要

推理时技术正成为增强大型语言模型 (LLM) 能力的有效工具。然而,由于我们对单个推理时技术的效用及其相互作用的理解有限,开发结合这些技术的系统的最佳实践仍处于发展阶段。此外,由于设计空间巨大,高效且自动地搜索模型选择、推理时技术及其组合的空间是一个挑战。为了应对这些挑战,我们引入了 Archon,这是一个模块化框架,用于选择、组合和堆叠推理时技术层,以构建针对目标基准的优化 LLM 系统。我们不是依赖于一次性调用单个 LLM,而是利用一组多样化的 LLM 和推理时技术,创建超越其各个部分之和的 LLM 系统。Archon 定义了一个可扩展的设计空间,涵盖诸如生成集成、重复采样、排序、融合、批评、验证和单元测试等技术。它将构建 LLM 系统的问题转化为超参数优化目标。考虑到可用的 LLM、推理时技术和计算预算,Archon 利用超参数搜索技术来发现针对目标基准的优化架构。我们在各种指令遵循、推理和编码基准上评估了 Archon 架构,包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。Archon 架构在这些基准上优于前沿模型,例如 GPT-4o 和 Claude 3.5 Sonnet,通过使用所有可用的 LLM,平均准确率提高了 15.1 个百分点。我们将在 Github 上公开发布我们的代码和数据集:https://github.com/ScalingIntelligence/Archon。