一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

启用了 fp8 训练，使得 "时间到 GPT-2" 提升了 +4.3%，现在降至 2.91 小时。值得注意的是，如果使用 8XH100 的现货实例价格，这个 GPT-2 重现的成本实际上仅为 ~$20。这真令人兴奋 - GPT-2（7年前）：太危险，无法发布。 GPT-2（今天）：新的 MNIST！:) 这肯定可以低于 1 小时。关于 fp8 再多说几句，它比我预期的要复杂一些，我花了一些时间才接触到它，即使现在我也不完全确定这是否是个好主意，因为对它的整体支持较少。从理论上讲，H100 上的 fp8 是 2 倍的 FLOPS，但在实践中要少得多。我们在实际训练过程中并不是 100% 受计算限制，增加的规模转换带来了额外的开销，GPT-2 规模的 GEMM 不够大，无法使开销显得明显值得，当然 - 在较低精度下，每一步的质量较小。对于行级缩放配方，fp8 与 bf16 的损失曲线非常接近，但速度略慢。对于张量级缩放，损失曲线分离得更多（即每一步的质量更差），但至少我们现在获得了约 7.3% 的加速。你可以通过增加训练范围（你训练更多步骤，但每一步更快）来天真地恢复性能，并希望最终能有所收获。在这种情况下，总体而言，稍微调整这些配方和训练范围后，我最终得到了约 5% 的加速。torchao 在他们的论文中报告 Llama3-8B fp8 训练加速为 25%（相比我的 ~7.3%，未考虑能力），这更接近我最初的期望，尽管 Llama3-8B 是一个更大的模型。这可能不是 fp8 传奇的结束。通过精确选择应用它的层，并在整个网络中更仔细地处理数值，应该可以改善情况。