LLM2D
STAR:定制化架构的合成
STAR: Synthesis of Tailored Architectures
作者: Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli, Michael Poli
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.17800v1

摘要

模型架构的迭代改进是深度学习的基础:Transformer 最初实现了模型的扩展,而最近在模型混合方面的进展推动了质量效率的界限。然而,优化架构仍然具有挑战性且成本高昂。当前的自动化或手动方法都存在不足,这主要是因为搜索空间设计方面的进展有限,以及由此产生的模式和启发式方法过于简单。在这项工作中,我们提出了一种新的定制架构合成方法 (STAR)。我们的方法结合了一种基于线性变输入系统理论的新型搜索空间,支持将分层数值编码为架构基因组。STAR 基因组通过无梯度进化算法自动优化和重组,以优化多个模型质量和效率指标。利用 STAR,我们优化了大量新架构,利用了不同的计算单元和互连模式,在自回归语言建模的质量、参数大小和推理缓存方面,优于高度优化的 Transformer 和条纹混合模型。