LLM2D

摘要

随着机器学习模型复杂度的不断提升，管理计算资源（如内存和处理能力）已成为一项关键问题。混合精度技术利用模型训练和推理过程中的不同数值精度来优化资源使用，已被广泛采用。然而，能够支持更低精度格式（如 FP8 或 FP4）的硬件访问仍然有限，尤其对于硬件受限的从业人员而言。对于许多资源有限的人来说，可用的选项仅限于使用 32 位、16 位或两者的组合。虽然普遍认为 16 位精度可以实现与全精度（32 位）相当的结果，但本研究首次通过严格的理论分析和广泛的实证评估系统地验证了这一假设。我们对浮点误差和分类容差的理论形式化提供了对 16 位精度可以在哪些条件下逼近 32 位结果的新见解。本研究填补了关键空白，首次证明了独立的 16 位精度神经网络在准确性方面与 32 位和混合精度相匹配，同时提升了计算速度。鉴于 16 位在 GPU 中的广泛可用性，这些发现对于硬件资源有限的机器学习从业人员来说尤为宝贵，可以帮助他们做出明智的决策。