LLM2D
冻结层:高效高精度超参数优化
Frozen Layers: Memory-efficient Many-fidelity Hyperparameter Optimization
作者: Timur Carstensen, Neeratyoy Mallik, Frank Hutter, Martin Rapp
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.10735v2

摘要

arXiv:2504.10735v2 宣告类型: replace-cross 摘要:随着模型规模的增长,找到高效且成本效益高的超参数优化(HPO)方法对于深度学习管道来说变得越来越关键。虽然多保真超参数优化(MF-HPO)在降低DL训练所需的计算资源的同时,提供了较低保真度的估计,但现有的保真度来源在低计算能力和内存约束下常常会失效。我们提出了一种新的保真度来源:在训练过程中训练或冻结的网络层的数量。对于深层网络,这种方法提供了显著的计算和内存节省,同时在低保真度情况下,保留了与完整模型训练相比的超参数之间的秩相关性。我们通过在ResNets和Transformers上的实证评估展示了这一点,并进一步分析了冻结层作为保真度在使用GPU资源作为HPO保真度以及与其他保真度来源结合的MF-HPO中的作用。这一贡献为基于硬件资源作为保真度的MF-HPO开辟了新的应用场景,并为导航联合保真度空间的改进算法创造了机会。