LLM2D
冻结层:内存高效的多保真超参数优化
Frozen Layers: Memory-efficient Many-fidelity Hyperparameter Optimization
作者: Timur Carstensen, Neeratyoy Mallik, Frank Hutter, Martin Rapp
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10735v1

摘要

arXiv:2504.10735v1 宣告类型:交叉 摘要:随着模型规模的增长,找到高效的且成本效益高的超参数优化(HPO)方法对于深度学习管道变得越来越重要。虽然多保真度超参数优化(MF-HPO)在降低计算资源需求的同时使用较低保真度的估计值,但现有的保真度来源在较低的计算和内存限制下往往无法生效。我们提出了一种新的保真度来源:训练或冻结的层的数量。对于深层网络,这种方法在提供显著的计算和内存节省的同时,能够在低保真度下保存超参数之间的排名相关性,与完整的模型训练相比。我们通过ResNets和Transformers在我们的实证评估中展示了这一点,并且还分析了在使用GPU资源作为保真度进行超参数优化时冻结层的效用,以及与其他保真度来源结合的组合MF-HPO。这一贡献为使用硬件资源作为保真度的MF-HPO打开了新的应用领域,并为在联合保真度空间中导航的改进算法创造了机会。