LLM2D

摘要

这是我的硕士学位论文的第二部分，比较了在使用逗号分隔值（CSV）和Parquet数据集格式进行回归机器学习模型训练时，默认浮点数（32位）和Nvidia混合精度（16位和32位）的能耗。实验使用了与第一部分相同的定制PC，该PC专用于分类测试和分析，并选择了不同的机器学习超参数，如批次大小、神经元和周期，来构建深度神经网络（DNN）。基准测试使用了DNN的默认超参数值作为参考，而实验则采用了不同的设置组合。结果记录在Excel中，并选择了描述性统计来计算各组之间的平均值，并通过图表进行比较。使用混合精度结合特定超参数的结果是积极的。与基准测试相比，优化回归模型使能耗降低了7到11瓦特。回归结果表明，虽然混合精度可以改善能耗，但我们必须仔细考虑超参数。批次大小和神经元数量较多会负面影响能耗。然而，这项研究需要推断统计，特别是ANOVA和T检验，来比较均值之间的关系。结果显示，回归测试中的均值之间没有统计显著性，并接受了H0假设。因此，选择不同的机器学习技术和Parquet数据集格式不会改善计算能耗和整体机器学习的碳足迹。然而，更大规模的集群GPU实施可以显著增加样本量，这是一个重要因素，并可能改变统计分析的结果。