LLM2D

摘要

本预白皮书针对深度学习提出了一种新颖的 8 位浮点数据格式 HiFloat8（简称 HiF8）。HiF8 具有梯度精度。对于正常值的编码，它提供 7 个指数位和 3 位尾数，8 个指数位和 2 位尾数，以及 16 个指数位和 1 位尾数。对于非规格化值或次规格化值编码，它将动态范围扩展了 7 个额外的 2 的幂，从 31 个二进制位扩展到 38 个二进制位（注意 FP16 覆盖了 40 个二进制位）。同时，HiF8 编码所有特殊值，但正零和负零仅由一个比特模式表示。由于在精度和动态范围之间取得了更好的平衡，HiF8 可以同时用于 AI 训练的前向和反向传递。在本文中，我们将描述 HiF8 的定义和舍入方法，以及初步的训练和推理解决方案。为了证明 HiF8 格式的有效性，还将展示在各种神经网络（包括传统神经网络和大型语言模型 (LLM)）上的大量模拟结果。