LLM2D

摘要

模型架构的迭代改进是深度学习的基础：Transformer 最初实现了模型的扩展，而最近在模型混合方面的进展推动了质量效率的界限。然而，优化架构仍然具有挑战性且成本高昂。当前的自动化或手动方法都存在不足，这主要是因为搜索空间设计方面的进展有限，以及由此产生的模式和启发式方法过于简单。在这项工作中，我们提出了一种新的定制架构合成方法 (STAR)。我们的方法结合了一种基于线性变输入系统理论的新型搜索空间，支持将分层数值编码为架构基因组。STAR 基因组通过无梯度进化算法自动优化和重组，以优化多个模型质量和效率指标。利用 STAR，我们优化了大量新架构，利用了不同的计算单元和互连模式，在自回归语言建模的质量、参数大小和推理缓存方面，优于高度优化的 Transformer 和条纹混合模型。