LLM2D

摘要

arXiv:2504.10735v2 宣告类型: replace-cross 摘要：随着模型规模的增长，找到高效且成本效益高的超参数优化（HPO）方法对于深度学习管道来说变得越来越关键。虽然多保真超参数优化（MF-HPO）在降低DL训练所需的计算资源的同时，提供了较低保真度的估计，但现有的保真度来源在低计算能力和内存约束下常常会失效。我们提出了一种新的保真度来源：在训练过程中训练或冻结的网络层的数量。对于深层网络，这种方法提供了显著的计算和内存节省，同时在低保真度情况下，保留了与完整模型训练相比的超参数之间的秩相关性。我们通过在ResNets和Transformers上的实证评估展示了这一点，并进一步分析了冻结层作为保真度在使用GPU资源作为HPO保真度以及与其他保真度来源结合的MF-HPO中的作用。这一贡献为基于硬件资源作为保真度的MF-HPO开辟了新的应用场景，并为导航联合保真度空间的改进算法创造了机会。