LLM2D

摘要

arXiv:2504.10735v1 宣告类型：交叉摘要：随着模型规模的增长，找到高效的且成本效益高的超参数优化（HPO）方法对于深度学习管道变得越来越重要。虽然多保真度超参数优化（MF-HPO）在降低计算资源需求的同时使用较低保真度的估计值，但现有的保真度来源在较低的计算和内存限制下往往无法生效。我们提出了一种新的保真度来源：训练或冻结的层的数量。对于深层网络，这种方法在提供显著的计算和内存节省的同时，能够在低保真度下保存超参数之间的排名相关性，与完整的模型训练相比。我们通过ResNets和Transformers在我们的实证评估中展示了这一点，并且还分析了在使用GPU资源作为保真度进行超参数优化时冻结层的效用，以及与其他保真度来源结合的组合MF-HPO。这一贡献为使用硬件资源作为保真度的MF-HPO打开了新的应用领域，并为在联合保真度空间中导航的改进算法创造了机会。