启用了 fp8 训练,使得 "时间到 GPT-2" 提升了 +4.3%,现在降至 2.91 小时。值得注意的是,如果使用 8XH100 的现货实例价格,这个 GPT-2 重现的成本实际上仅为 ~$20。这真令人兴奋 - GPT-2(7年前):太危险,无法发布。 GPT-2(今天):新的 MNIST!:) 这肯定可以低于 1 小时。 关于 fp8 再多说几句,它比我预期的要复杂一些,我花了一些时间才接触到它,即使现在我也不完全确定这是否是个好主意,因为对它的整体支持较少。从理论上讲,H100 上的 fp8 是 2 倍的 FLOPS,但在实践中要少得多。我们在实际训练过程中并不是 100% 受计算限制,增加的规模转换带来了额外的开销,GPT-2 规模的 GEMM 不够大,无法使开销显得明显值得,当然 - 在较低精度下,每一步的质量较小。对于行级缩放配方,fp8 与 bf16 的损失曲线非常接近,但速度略慢。对于张量级缩放,损失曲线分离得更多(即每一步的质量更差),但至少我们现在获得了约 7.3% 的加速。你可以通过增加训练范围(你训练更多步骤,但每一步更快)来天真地恢复性能,并希望最终能有所收获。在这种情况下,总体而言,稍微调整这些配方和训练范围后,我最终得到了约 5% 的加速。torchao 在他们的论文中报告 Llama3-8B fp8 训练加速为 25%(相比我的 ~7.3%,未考虑能力),这更接近我最初的期望,尽管 Llama3-8B 是一个更大的模型。这可能不是 fp8 传奇的结束。通过精确选择应用它的层,并在整个网络中更仔细地处理数值,应该可以改善情况。