LLM2D
阿基米德:一个面向推理时间技术的架构搜索框架
Archon: An Architecture Search Framework for Inference-Time Techniques
作者: Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher R\'e, Azalia Mirhoseini
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.15254v4

摘要

推理时技术正在成为提高大型语言模型 (LLM) 能力的有效工具。然而,对于开发将推理时技术与一个或多个 LLM 相结合的系统的最佳实践,人们仍然缺乏了解,面临的挑战包括:(1) 有效地分配推理计算预算,(2) 理解不同推理时技术组合之间的相互作用及其对下游性能的影响,以及 (3) 在模型选择、推理时技术及其组合的大空间中有效地搜索。为了解决这些挑战,我们引入了 Archon,一个用于设计推理时架构的自动化框架。Archon 定义了一个可扩展的设计空间,涵盖了生成集成、多重采样、排序、融合、批评、验证和单元测试等方法。然后,它将选择和组合 LLM 和推理时技术的难题转化为超参数优化目标。为了优化这个目标,我们引入了自动推理时架构搜索 (ITAS) 算法。给定目标基准、推理计算预算和可用的 LLM,ITAS 输出优化的架构。我们在各种指令遵循和推理基准上评估了 Archon 架构,包括 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH 和 CodeContests。我们表明,Archon 自动设计的推理时架构在这些基准上优于 GPT-4o 和 Claude 3.5 Sonnet 等强大模型,使用所有来源模型和开源模型分别平均提高了 15.1 和 11.2 个百分点。我们在 Github 上公开发布了我们的代码和数据集:https://github.com/ScalingIntelligence/Archon。