LLM2D
使用Parquet数据集格式和回归模型的混合精度训练减少机器学习碳足迹——第二部分
Improve Machine Learning carbon footprint using Parquet dataset format and Mixed Precision training for regression models -- Part II
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.11071v2

摘要

这是我的硕士学位论文的第二部分,比较了在使用逗号分隔值(CSV)和Parquet数据集格式进行回归机器学习模型训练时,默认浮点数(32位)和Nvidia混合精度(16位和32位)的能耗。实验使用了与第一部分相同的定制PC,该PC专用于分类测试和分析,并选择了不同的机器学习超参数,如批次大小、神经元和周期,来构建深度神经网络(DNN)。基准测试使用了DNN的默认超参数值作为参考,而实验则采用了不同的设置组合。结果记录在Excel中,并选择了描述性统计来计算各组之间的平均值,并通过图表进行比较。使用混合精度结合特定超参数的结果是积极的。与基准测试相比,优化回归模型使能耗降低了7到11瓦特。回归结果表明,虽然混合精度可以改善能耗,但我们必须仔细考虑超参数。批次大小和神经元数量较多会负面影响能耗。然而,这项研究需要推断统计,特别是ANOVA和T检验,来比较均值之间的关系。结果显示,回归测试中的均值之间没有统计显著性,并接受了H0假设。因此,选择不同的机器学习技术和Parquet数据集格式不会改善计算能耗和整体机器学习的碳足迹。然而,更大规模的集群GPU实施可以显著增加样本量,这是一个重要因素,并可能改变统计分析的结果。