LLM2D

摘要

arXiv:2501.12690v2 公告类型: replace-cross 摘要：深度学习在以训练庞大神经网络为代价的情况下取得了令人印象深刻的成果。然而，架构越大，在训练和推理过程中所需的计算、财务和环境成本就越高。我们的目标是减少训练和推理的时间。我们关注神经架构增长，这是一种在训练过程中直接根据反向传播信息增加小模型大小的方法。我们扩展了现有工作，并以任何形式的有向无环图(DAG)的形式自由地增长神经网络，通过减少架构中的表现性瓶颈来实现。我们探索减少过度计算并引导网络增长向更参数高效架构的策略。