LLM2D

摘要

本研究对机器学习训练机制和学习范式变化对计算能耗的影响进行了启发式评估，特别关注具有生命周期意识的高性能计算 (HPC) 硬件。虽然数据可用性的增加和高性能硬件的创新推动了复杂模型的训练，但也促使人们对能耗和碳排放的意识逐渐淡化。因此，本研究旨在提高人们对一般训练参数和流程的能耗影响的认识，从学习率、批次大小到知识迁移。在三个不同的硬件系统上评估了具有不同超参数配置的多种设置。在众多结果中，我们发现即使使用相同的模型和硬件来达到相同的精度，设置不当的训练超参数也会消耗最佳设置能耗的 5 倍。我们还广泛考察了学习范式（包括通过预训练回收知识和通过多任务训练共享知识）的节能优势。