摘要
arXiv:2504.10735v2 宣告类型: replace-cross
摘要:随着模型规模的增长,找到高效且成本效益高的超参数优化(HPO)方法对于深度学习管道来说变得越来越关键。虽然多保真超参数优化(MF-HPO)在降低DL训练所需的计算资源的同时,提供了较低保真度的估计,但现有的保真度来源在低计算能力和内存约束下常常会失效。我们提出了一种新的保真度来源:在训练过程中训练或冻结的网络层的数量。对于深层网络,这种方法提供了显著的计算和内存节省,同时在低保真度情况下,保留了与完整模型训练相比的超参数之间的秩相关性。我们通过在ResNets和Transformers上的实证评估展示了这一点,并进一步分析了冻结层作为保真度在使用GPU资源作为HPO保真度以及与其他保真度来源结合的MF-HPO中的作用。这一贡献为基于硬件资源作为保真度的MF-HPO开辟了新的应用场景,并为导航联合保真度空间的改进算法创造了机会。