FP8-koulutus on käytössä +4,3 % parannuksella "aika GPT-2:een", nyt 2,91 tuntiin. On myös hyvä huomata, että jos käytät 8XH100 spot-instanssihintoja, tämä GPT-2-repro maksaa oikeastaan vain ~$20. Joten tämä on jännittävää – GPT-2 (7 vuotta sitten): liian vaarallinen julkaista. GPT-2 (tänään): uusi MNIST! :) Eikö tämä voi kestää reilusti alle tunnin. Muutama sana lisää fp8:sta, se oli vähän hankalampaa kuin odotin ja kesti hetken tarttua siihen, enkä vieläkään ole täysin varma, onko se hyvä idea, koska sille on vähemmän tukea. Paperilla FP8 H100:lla on kaksi kertaa enemmän kuin flops, mutta käytännössä se on paljon vähemmän. Emme ole 100 % sidottuja laskentaan varsinaisessa koulutusajossa, lisätason muunnoksista aiheutuu ylimääräistä kuormitusta, GEMM:t eivät ole tarpeeksi suuria GPT-2-mittakaavassa, jotta ylimääräinen työ olisi selvästi kannattavaa, ja tietysti – alhaisemmalla tarkkuudella jokaisen vaiheen laatu on pienempi. Riviskaalausreseptissä fp8 vs bf16 -häviökäyrät olivat melko lähellä, mutta se eteni nettoon hitaammin. Tensorittaisessa skaalauksessa häviökäyrät erottuvat enemmän (eli jokainen vaihe on huonompilaatuinen), mutta nyt saamme ainakin nopeutuksen (~7,3%). Voit naiivisti palauttaa suorituksen siirtämällä harjoitushorisonttia (harjoittelet enemmän askelia, mutta jokainen askel on nopeampi) ja toivoa, että kokonaisuudessaan onnistut. Tässä tapauksessa, ja kaiken kaikkiaan, kun kokeilin näitä reseptejä ja harjoitushorisontteja, olen tähän mennessä saanut ~5 % nopeutusta. Torchao raportoi artikkelissaan Llama3-8B FP8:n koulutuksen nopeutuneen 25 % (verrattuna omaan ~7,3 %:iin ilman kykyä huomioiden), mikä on lähempänä sitä, mitä alun perin toivoin, vaikka Llama3-8B on paljon isompi malli. Tämä ei todennäköisesti ole FP8-saagan loppu. Pitäisi olla mahdollista parantaa asioita valitsemalla ja valitsemalla, millä kerroksilla se tarkalleen asetetaan, ja olemalla tarkempi numeeristen kanssa koko verkossa.