熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
啟用了 fp8 訓練,使 "時間到 GPT-2" 改善了 +4.3%,現在降至 2.91 小時。還值得注意的是,如果使用 8XH100 的現貨實例價格,這個 GPT-2 重現實際上只需花費約 $20。所以這真是令人興奮 -
GPT-2(7 年前):太危險而無法釋放。
GPT-2(今天):新的 MNIST! :)
這肯定可以低於 1 小時。
關於 fp8 的幾句話,它比我預期的要棘手一些,我花了一段時間才達到這一點,即使現在我也不完全確定這是否是個好主意,因為對它的整體支持較少。從理論上講,H100 上的 fp8 是 2 倍的 FLOPS,但在實踐中要少得多。我們在實際訓練過程中並不是 100% 計算受限,因為增加的規模轉換會帶來額外的開銷,GPT-2 的 GEMMs 大小不足以使開銷明顯值得,當然 - 在較低的精度下,每一步的質量較小。對於行級擴展配方,fp8 與 bf16 的損失曲線相當接近,但步伐明顯較慢。對於張量級擴展,損失曲線分離得更多(即每一步的質量較差),但至少我們現在獲得了約 7.3% 的加速。你可以天真地通過增加訓練範圍來恢復性能(你訓練更多步驟,但每一步更快),並希望最終能有所收穫。在這種情況下,總體來說,稍微調整這些配方和訓練範圍,到目前為止我得到了約 5% 的加速。torchao 在他們的論文中報告 Llama3-8B fp8 訓練加速 25%(相比我的 ~7.3%,未考慮能力),這更接近我最初的期望,儘管 Llama3-8B 是一個更大的模型。這可能不是 fp8 史詩的結束。通過精確選擇應用它的層,並在整個網絡中更小心地處理數字,應該有可能改善情況。
熱門
排行
收藏
